多変量分析
多変量分析とは、複数の変数が同時に影響し合うデータを分析する手法です。
主成分分析、因子分析、判別分析、共分散構造分析、クラスター分析などがあります。
主成分分析 (PCA)
主成分分析とは、教師なし学習の一つでたくさんの変数を少ない変数にして次元削減を行う(要約)手法です。
主成分分析では分散が大きい成分が重要で、各主成分は互いに直行するように選択されます。
実行時に情報の量を分散の大きさとして、新しい軸が導きます。
主成分の最大値はデータの特徴量で、主成分数が少ないほど射影した情報が落ちます。
また、主成分の数は少ないほうがいいです。
主成分分析の用語を次に記載します。
-
主成分スコア
導出した主成分と元の変数との関係を利用して、各観測値に対する主成分の値を計算
-
主成分負荷量
元の変数と主成分の間の関係を示す係数
-
第N主成分
固有値の大きい固有ベクトルから第1主成分、第2主成分…第N主成分
-
寄与率
主成分の固有値を総和で割った値
-
累積寄与率
圧縮したとき情報損失量
固有値の大きさがλ1,λ2,λ3の3つの場合、λ1の寄与率は次のように計算できます。
λ1が1番大きいですので第1主成分でλ2が第2主成分でλ3が第3主成分となります。
第2主成分までの累積寄与率は次のように計算できます。
ノルムが1となる制約を入れており、入れないと無限に解が発生してしまいます。
分散共分散行列の固有ベクトルを基に低次元データに写像します。
サポートベクターマシン(SVM)
サポートベクターマシンとは、教師あり学習の一つで分類問題を解くための判別分析する手法です。
2値分類では、+1(正)または-1(負)で分類します。
射影手法などの計算では特徴量を生成する計算が複雑になりコストが非常に高くなりますので、そうならないテクニックとしてカーネルトリック・スラック変数(誤分類データに寛容)があります。
カーネル関数が最大になる境界線を学習で求めてデータ分類を行う手法です。
例えば、AとBというクラスがあり、「AAA| |
|BBB」と分類したとして、真ん中の「|」が境界線(分類境界)でそれに一番近いAとBをサートベクトルといいます。
分類境界を挟んで2つのクラスがどのぐらい離れているかをマージン(「A| |
|B」では、A|~|B)といいます。
このマージンが離れていれば離れているほど良いモデルとなり、この距離を最大化することをマージン最大化といいます。
また、AまたはBがマージン内(境界線を越えるも含む)に入ってしまい、そこから自身までのデータの距離をスラック変数といいます。
AがBのマージンに入った「AAA| | A
|BBB」の場合なら、Bのマージン内にある「A」から「AAA|」の「|」までの距離です。
一次元では線形でしたが、これで分類ができないときに2次元3次元n次元(超平面)と次元を上げて(カーネル関数を利用して高次元へ写像)線形分離して分類することをカーネルトリックといいます。
ソフトマージンは、データの分類を許す最小化(ペナルティの最小化)としてパラメータをCとした場合にCが無限の場合に誤分類を許容しなくなりますが0に近づくにつれて誤分類を許容してしまいます。
ハードマージンではマージンが最大化が求められます。
混同行列
混同行列とは、機械学習の性能指標で利用されます。
実際の値と予測値が正しい(positive)か誤っている(negative)を4つの観点で分類して表にしたものです。
以下の表です。
- 真陽性(TP):予測値がpositiveで実際の値もpositiveだった数
- 偽陽性(FP):予測値はpositiveだが、実際の値はnegativeだった数
- 偽陰性(FN):予測値はnegativeだが、実際の値はpositiveだった数
- 真陰性(TN):予測値がnegativeで実際の値もnegativeだった数
この表から正解率が求められ、それが正しく評価・予測が行えているかの指標になります。
統計学では、第一種過誤(帰無仮説が正しいのに、対立仮説を受け入れてしまうこと)と第二種過誤(対立仮説が正しいのに帰無仮説をうけいれること)があります。
次に記載するのが、指標の代表的なものです。
-
正解率(accuracy)
予想が当たった割合((TP+TN)/(TP+FN+FP+TN))
-
適合率(precision)
真陽性だった割合(TP/(TP+FP))
-
再現率(recall)
真陽性と予測できた割合(TP/(TP+FN))
-
F値
適合率と再現率の調和平均をとった割合(2TP/(2TP+FN+FP))
クラスター分析
クラスター分析とは、観測したデータで特徴が類似したもの同士をグループ化する手法です。
クラスター分析は教師なし学習の一つで、正解を与えない状態でデータ構造を把握させてパターンや傾向を発見してグループかします。
このグループ化することをクラスタリングといい、できたグループをクラスターといいます。
例として、市場セグメンテーション、顧客分析、画像セグメンテーション、生物学的データの分析などです。
クラスター分析の手順は次に記載します。
-
1. データの収集
データを収集します。
-
2. 類似性の測定
データから類似性を定量的に測定します。
類似性の測定には、ユークリッド距離、マンハッタン距離、相関係数、コサイン類似度などがあります。 -
3. クラスタリング手法の選択
クラスタリング手法を選択します。
クラスタリング手法には、階層型クラスター分析、k平均法などがあります。 -
4. クラスタリングの実行
クラスタリング手法で、データをクラスタリングします。
-
5. クラスターの解釈
クラスターを解釈します。
各クラスターの中心点や代表的な特徴を把握します。 -
6. 結果の評価(オプション)
クラスター分析の結果を評価します。
ただし、評価が難しいこともあります。
階層型クラスター分析
階層型クラスター分析とは、データを木構造のように階層的にした手法です。
階層的クラスタリングでは、クラスターをクラスタリングしてそれらのクラスターをさらに組み合わせていきます。
階層型クラスター分析では、クラスター間の距離を定める必要があり、次の方法があります。
-
最短距離法
最も距離が短いものをを利用します。
-
最長距離法
最も距離が長いものをを利用します。
-
重心法
データの重心間の距離を利用します。
-
群平均法
データ間の平均の距離を利用します。
-
ウォード法
偏差平方和の増分が小さいものを利用します。
距離を定める場合、最短距離法や最長距離法は一つのデータしか使用しませんので外れ値に弱いです。
デンドログラム(樹形図)
デンドログラム(樹形図)とは、群平均法を利用した階層型クラスター分析です。
デンドログラムは、この階層構造を木構造に表現して、視覚的に理解しやすくします。
デンドログラムは次のような特徴があります。
-
垂直方向の軸
データの要素やクラスタが垂直方向に配置されます。
-
水平方向の軸
クラスタリングの過程を表現し、どの要素やクラスタが組み合わさっていくかを示します。
-
枝(ブランチ)
クラスタの結合や分割を表現する線状の部分で、その長さや高さが類似性を示します。
-
葉(リーフ)
データの各要素が配置される部分で、各要素の個別の位置を示します。
k-means法(k平均法)
k-means法とは、距離が近いもの同士でクラスタリングする手法です。
kの値でクラスタリング数を設定します。
k近傍法などで外れ値を検出して、変化点を検出します。
データが1つのグループに分類されますが、複数の正規分布を混合した混合ガウスモデルを利用することで確率的なクラスタリングが行え、それが生成モデルになります。
中心の初期値に依存してしまい、それを改善するため一定の距離(隔離)を利用したりルーレット選択で選択するk-means++があります。
- 1 .クラスターの数を設定
- 2. クラスターの中心をランダムで設定
- 3. 全てのデータと各クラスターの中心との距離を計算
- 4. 中心との距離が最も近いクラスターに振分
- 5. クラスタの中心(平均ベクトル)を計算
- 6. 収束するまで3から5を繰り返し
共分散構造分析
共分散構造分析とは、観測された変数や潜在変数間の複雑な関係をモデリングする手法です。
共分散構造分析では、潜在変数や観測変数の要因を考慮して影響を解析します。
パス図を利用して、変数間の直接的・間接的な影響関係を表現し、モデルの適合度を評価します。
因子分析
因子分析とは、複数の観測変数を少数の潜在因子に要約して次元削減するための手法です。
観測変数の変動の大部分が少数の潜在因子に起因すると仮定し、これらの因子を抽出します。
因子分析は、データの次元削減や変数の構造を理解するために利用されます。
例として、心理学の研究で異なる質問項目からなるテストが共通の潜在的な特性を測定しているかどうかを調査したりします。
因子分析の方法は次のようになります。
-
1 .データの前処理
データを標準化します。
標準化することで、変数の尺度の違いがなくなり、因子分析の結果が安定します。 -
2. 共通因子数を設定
因子の数を決定します。
決定する方法には、スクリープロットやKaiserがあります。 -
3. 因子負荷量の推定
因子分析で因子負荷量を推定します。
因子負荷量は、各観測変数毎に決まり、因子の関係性を示します。 -
4. 因子スコアの推定
因子スコアを推定します。
個々のデータ毎に決まり、主成分スコア法などを利用して計算します。 -
5. 因子の回転
因子の結果から因子の回転を行います。
回転することで、解釈がしやすくなります。
代表的な回転方法に、バリマックス回転やバリミンクス回転があります。 -
6. 因子の解釈
推定した因子負荷量や因子スコアと因子の回転から因子を解釈します。
因果図
因果図とは、因果関係を視覚的に表現するためのグラフや図です。
因果図は、要因や変数間の直接的および間接的な因果関係を示し、複雑なシステムの理解やモデリングに役立ちます。
滞在変数
滞在変数とは、直接観測できない概念や性質を表すための仮想的な変数です。
これは観測された変数ではなく、ある現象や概念の背後にある潜在的な特性になります。
因子の回転
因子の回転とは、因子分析において因子の解釈を容易にするために使用される手法です。
因子分析では、多くの場合、元の因子が相互に関連しているため、解が複数存在し、それが直交な解であるか、または非直交な解であるかによって解釈が異なります。
因子の回転は、これらの解の選択肢を変更します。
因子の回転のタイプには、直交回転と斜交回転があります。
多次元尺度法
多次元尺度法は、データの相対的な距離や類似性からデータを次元削減する手法です。
多次元尺度法は主に視覚的な表現が目的で、データの構造やパターンを解析します。
対象の間の類似性や差異を保持しつつ、データをより低次元の空間にマッピングします。
多次元尺度法のタイプには、類似性尺度と距離尺度があります。
正準相関
正準相関とは、複数の変数の組の間の相関を評価する手法です。
正準相関は、各変数の組内の変数同士が最も強く相関する組み合わせを見つけ、それに対する正準変数を導きます。
その結果、異なる変数セット間のパターンや構造を理解し、相関を最大化する方向を特定できます。
対応分析
対応分析とは、クロス集計表やクロス集計データに対する視覚的な解析手法です。
主にカテゴリカルデータの関連性を探るために使用します。
対応分析は、カテゴリカルデータの行と列のパターンや関連性を視覚的に理解できます。
数量化法
数量化法とは、データを離散的な量や階級に分ける手法です。
連続的な情報やデータを区切り、離散的な値やレベルに変換します。
例として、音声や画像の信号処理では連続的なアナログ信号をデジタルなビットやレベルに変換します。