多変量分析

多変量分析とは、複数の変数が同時に影響し合うデータを分析する手法です。
主成分分析、因子分析、判別分析、共分散構造分析、クラスター分析などがあります。

主成分分析 (PCA)

主成分分析とは、教師なし学習の一つでたくさんの変数を少ない変数にして次元削減を行う(要約)手法です。
主成分分析では分散が大きい成分が重要で、各主成分は互いに直行するように選択されます。
実行時に情報の量を分散の大きさとして、新しい軸が導きます。
主成分の最大値はデータの特徴量で、主成分数が少ないほど射影した情報が落ちます。
また、主成分の数は少ないほうがいいです。
主成分分析の用語を次に記載します。

固有値の大きさがλ1,λ2,λ3の3つの場合、λ1の寄与率は次のように計算できます。

\[ λ1=60、λ2=30、λ3=10 \frac{λ1}{λ1+λ2+λ3} = 0.6 \]

λ1が1番大きいですので第1主成分でλ2が第2主成分でλ3が第3主成分となります。
第2主成分までの累積寄与率は次のように計算できます。

\[ \frac{λ1+λ2}{λ1+λ2+λ3} = 0.9 \]

ノルムが1となる制約を入れており、入れないと無限に解が発生してしまいます。
分散共分散行列の固有ベクトルを基に低次元データに写像します。

サポートベクターマシン(SVM)

サポートベクターマシンとは、教師あり学習の一つで分類問題を解くための判別分析する手法です。
2値分類では、+1(正)または-1(負)で分類します。
射影手法などの計算では特徴量を生成する計算が複雑になりコストが非常に高くなりますので、そうならないテクニックとしてカーネルトリック・スラック変数(誤分類データに寛容)があります。
カーネル関数が最大になる境界線を学習で求めてデータ分類を行う手法です。
例えば、AとBというクラスがあり、「AAA| | |BBB」と分類したとして、真ん中の「|」が境界線(分類境界)でそれに一番近いAとBをサートベクトルといいます。
分類境界を挟んで2つのクラスがどのぐらい離れているかをマージン(「A| | |B」では、A|~|B)といいます。
このマージンが離れていれば離れているほど良いモデルとなり、この距離を最大化することをマージン最大化といいます。
また、AまたはBがマージン内(境界線を越えるも含む)に入ってしまい、そこから自身までのデータの距離をスラック変数といいます。
AがBのマージンに入った「AAA| | A |BBB」の場合なら、Bのマージン内にある「A」から「AAA|」の「|」までの距離です。
一次元では線形でしたが、これで分類ができないときに2次元3次元n次元(超平面)と次元を上げて(カーネル関数を利用して高次元へ写像)線形分離して分類することをカーネルトリックといいます。
ソフトマージンは、データの分類を許す最小化(ペナルティの最小化)としてパラメータをCとした場合にCが無限の場合に誤分類を許容しなくなりますが0に近づくにつれて誤分類を許容してしまいます。
ハードマージンではマージンが最大化が求められます。

混同行列

混同行列とは、機械学習の性能指標で利用されます。
実際の値と予測値が正しい(positive)か誤っている(negative)を4つの観点で分類して表にしたものです。
以下の表です。

この表から正解率が求められ、それが正しく評価・予測が行えているかの指標になります。
統計学では、第一種過誤(帰無仮説が正しいのに、対立仮説を受け入れてしまうこと)と第二種過誤(対立仮説が正しいのに帰無仮説をうけいれること)があります。
次に記載するのが、指標の代表的なものです。

クラスター分析

クラスター分析とは、観測したデータで特徴が類似したもの同士をグループ化する手法です。
クラスター分析は教師なし学習の一つで、正解を与えない状態でデータ構造を把握させてパターンや傾向を発見してグループかします。
このグループ化することをクラスタリングといい、できたグループをクラスターといいます。
例として、市場セグメンテーション、顧客分析、画像セグメンテーション、生物学的データの分析などです。
クラスター分析の手順は次に記載します。

階層型クラスター分析

階層型クラスター分析とは、データを木構造のように階層的にした手法です。
階層的クラスタリングでは、クラスターをクラスタリングしてそれらのクラスターをさらに組み合わせていきます。
階層型クラスター分析では、クラスター間の距離を定める必要があり、次の方法があります。

距離を定める場合、最短距離法や最長距離法は一つのデータしか使用しませんので外れ値に弱いです。

デンドログラム(樹形図)

デンドログラム(樹形図)とは、群平均法を利用した階層型クラスター分析です。
デンドログラムは、この階層構造を木構造に表現して、視覚的に理解しやすくします。
デンドログラムは次のような特徴があります。

k-means法(k平均法)

k-means法とは、距離が近いもの同士でクラスタリングする手法です。
kの値でクラスタリング数を設定します。
k近傍法などで外れ値を検出して、変化点を検出します。
データが1つのグループに分類されますが、複数の正規分布を混合した混合ガウスモデルを利用することで確率的なクラスタリングが行え、それが生成モデルになります。
中心の初期値に依存してしまい、それを改善するため一定の距離(隔離)を利用したりルーレット選択で選択するk-means++があります。

共分散構造分析

共分散構造分析とは、観測された変数や潜在変数間の複雑な関係をモデリングする手法です。
共分散構造分析では、潜在変数や観測変数の要因を考慮して影響を解析します。
パス図を利用して、変数間の直接的・間接的な影響関係を表現し、モデルの適合度を評価します。

因子分析

因子分析とは、複数の観測変数を少数の潜在因子に要約して次元削減するための手法です。
観測変数の変動の大部分が少数の潜在因子に起因すると仮定し、これらの因子を抽出します。
因子分析は、データの次元削減や変数の構造を理解するために利用されます。
例として、心理学の研究で異なる質問項目からなるテストが共通の潜在的な特性を測定しているかどうかを調査したりします。
因子分析の方法は次のようになります。

因果図

因果図とは、因果関係を視覚的に表現するためのグラフや図です。
因果図は、要因や変数間の直接的および間接的な因果関係を示し、複雑なシステムの理解やモデリングに役立ちます。

滞在変数

滞在変数とは、直接観測できない概念や性質を表すための仮想的な変数です。
これは観測された変数ではなく、ある現象や概念の背後にある潜在的な特性になります。

因子の回転

因子の回転とは、因子分析において因子の解釈を容易にするために使用される手法です。
因子分析では、多くの場合、元の因子が相互に関連しているため、解が複数存在し、それが直交な解であるか、または非直交な解であるかによって解釈が異なります。
因子の回転は、これらの解の選択肢を変更します。
因子の回転のタイプには、直交回転と斜交回転があります。

多次元尺度法

多次元尺度法は、データの相対的な距離や類似性からデータを次元削減する手法です。
多次元尺度法は主に視覚的な表現が目的で、データの構造やパターンを解析します。
対象の間の類似性や差異を保持しつつ、データをより低次元の空間にマッピングします。
多次元尺度法のタイプには、類似性尺度と距離尺度があります。

正準相関

正準相関とは、複数の変数の組の間の相関を評価する手法です。
正準相関は、各変数の組内の変数同士が最も強く相関する組み合わせを見つけ、それに対する正準変数を導きます。
その結果、異なる変数セット間のパターンや構造を理解し、相関を最大化する方向を特定できます。

対応分析

対応分析とは、クロス集計表やクロス集計データに対する視覚的な解析手法です。
主にカテゴリカルデータの関連性を探るために使用します。
対応分析は、カテゴリカルデータの行と列のパターンや関連性を視覚的に理解できます。

数量化法

数量化法とは、データを離散的な量や階級に分ける手法です。
連続的な情報やデータを区切り、離散的な値やレベルに変換します。
例として、音声や画像の信号処理では連続的なアナログ信号をデジタルなビットやレベルに変換します。