PCA(主成分分析)とは？意味をわかりやすく簡単に解説

text: XEXEQ編集部

PCA(主成分分析)とは

PCAは、多変量データの次元を削減するための統計的手法です。データに含まれる情報を最大限に保持しつつ、より少ない次元で表現することができます。

PCAは、データの分散を最大化する新しい座標軸(主成分)を見つけ出すことで機能します。第一主成分は分散が最大となる方向、第二主成分は第一主成分と直交する方向で分散が最大となる方向というように、順次主成分を求めていきます。

PCAを適用することで、データの可視化や特徴抽出、ノイズ除去などが可能になります。また、機械学習モデルの前処理としても広く活用されています。

PCAは、線形な次元削減手法であるため、非線形なデータに対しては適切でない場合があります。そのような場合は、カーネルPCAやオートエンコーダなどの非線形次元削減手法が用いられることがあります。

PCAを実行するには、データの標準化が必要です。各変数の平均を0、分散を1にスケーリングすることで、変数間のスケールの違いを解消し、公平に扱うことができるようになります。

PCAの数学的背景と計算方法

PCAに関して、以下3つを簡単に解説していきます。

PCAの数学的定義と目的
PCAの計算方法と手順
PCAの固有値と固有ベクトルの役割

PCAの数学的定義と目的

PCAは、多変量データの分散共分散行列または相関行列の固有値問題を解くことで定義されます。目的は、データの分散を最大限に保持しつつ、互いに直交する新しい座標軸(主成分)を見つけることです。

数学的には、データ行列Xの分散共分散行列Σの固有値問題を解くことになります。固有値λと固有ベクトルvは、Σv=λvを満たします。固有値の大きさは、対応する主成分の分散の大きさを表しています。

PCAでは、固有値の大きい順に固有ベクトルを選択し、これを新しい座標軸とします。この座標軸上にデータを射影することで、次元削減が達成されます。

PCAの計算方法と手順

PCAの計算手順は以下の通りです。まず、データの平均を0にセンタリングします。次に、分散共分散行列または相関行列を計算します。

そして、分散共分散行列または相関行列の固有値と固有ベクトルを計算します。固有値を降順にソートし、対応する固有ベクトルを主成分として選択します。最後に、データを主成分上に射影し、次元削減されたデータを得ます。

PCAの計算には、特異値分解(SVD)が用いられることが多いです。SVDは、計算が安定しており、効率的に主成分を求めることができます。

PCAの固有値と固有ベクトルの役割

PCAにおいて、固有値と固有ベクトルは重要な役割を果たします。固有値は、対応する主成分の分散の大きさを表します。固有値が大きいほど、その主成分がデータの変動を多く説明していることを意味します。

固有ベクトルは、主成分の方向を表します。固有ベクトルは互いに直交しており、データの最大分散方向を順に捉えています。固有ベクトルの要素の大きさは、元の変数との関連性の強さを表しています。

固有値の大きさを見ることで、次元削減の程度を決定することができます。累積寄与率を計算し、例えば90%以上の分散を保持するように次元数を選択するといった方法がよく用いられます。

PCAの応用例と注意点

PCAに関して、以下3つを簡単に解説していきます。

PCAを用いたデータの可視化
PCAを用いた特徴抽出と次元削減
PCAの注意点と限界

PCAを用いたデータの可視化

PCAは、高次元データを2次元や3次元に削減することで、データの可視化に役立ちます。第一主成分と第二主成分をx軸、y軸にとり、データをプロットすることで、データの分布や傾向を視覚的に把握することができます。

この可視化により、データのクラスタリングや外れ値の検出、変数間の関係性の把握などが容易になります。ただし、情報の損失があるため、解釈には注意が必要です。

PCAによる可視化は、探索的データ解析の段階で特に有用です。データの全体像を掴み、仮説を立てるための手がかりを得ることができます。

PCAを用いた特徴抽出と次元削減

PCAは、特徴抽出と次元削減の手法としても広く用いられています。高次元のデータを低次元の特徴量に変換することで、モデルの学習を効率化し、過学習を防ぐことができます。

主成分は、元の変数の線形結合で表されます。この線形結合の係数は、元の変数の重要度を表していると解釈できます。主成分を新しい特徴量として用いることで、次元削減と特徴抽出を同時に行うことができます。

ただし、PCAは教師なし学習であるため、目的変数との関連性は考慮されません。目的変数との関連性が高い特徴量を抽出するには、教師あり次元削減手法を用いる必要があります。

PCAの注意点と限界

PCAは強力な手法ですが、いくつかの注意点と限界があります。まず、PCAは線形な次元削減手法であるため、非線形な構造を持つデータには適していません。そのような場合は、カーネルPCAやオートエンコーダなどの非線形次元削減手法を検討する必要があります。

また、PCAはデータの分散を最大化するように設計されているため、外れ値の影響を受けやすいという特徴があります。外れ値が存在する場合は、ロバストなPCAの変種を用いるか、外れ値を除去してからPCAを適用する必要があります。

さらに、PCAは変数間の関係性を線形で捉えるため、非線形な関係性を見落とす可能性があります。変数間の非線形な関係性が重要な場合は、他の手法を検討する必要があります。

PCAの実装とライブラリ

PCAに関して、以下3つを簡単に解説していきます。

PCAの実装方法
PCAの Python での実装例
PCAの主要なライブラリと機能

PCAの実装方法

PCAの実装は、数学的な定義に基づいて行われます。まず、データの平均を0にセンタリングし、分散共分散行列または相関行列を計算します。次に、固有値問題を解き、固有値と固有ベクトルを求めます。

固有値を降順にソートし、対応する固有ベクトルを主成分として選択します。最後に、データを主成分上に射影し、次元削減されたデータを得ます。これらの手順を、プログラミング言語で実装することができます。

ただし、PCAの実装には数値計算上の注意点があります。特に、固有値問題を解く際には、数値的に安定した手法を用いる必要があります。

PCAの Python での実装例

Pythonを用いてPCAを実装する場合、NumPyやSciPyといった数値計算ライブラリを活用することができます。以下に、PCAの簡単な実装例を示します。

import numpy as np
from scipy.linalg import eigh

def pca(X, n_components):
    X = X - np.mean(X, axis=0)
    cov_mat = np.cov(X, rowvar=False)
    eigen_values, eigen_vectors = eigh(cov_mat)
    sorted_index = np.argsort(eigen_values)[::-1]
    sorted_eigenvectors = eigen_vectors[:,sorted_index]
    principal_components = sorted_eigenvectors[:, :n_components]
    return np.dot(X, principal_components)

この実装では、`eigh`関数を用いて固有値問題を解いています。`eigh`関数は、対称行列の固有値問題を効率的に解くことができます。また、`argsort`関数を用いて固有値を降順にソートしています。

ただし、この実装は教育的な目的で簡略化されているため、大規模なデータや高次元のデータに対しては、より効率的な実装が必要になります。