データベースサイエンティスト

回帰分析

回帰分析は、実際に発生している結果をある変数がどれぐらい影響が与えているかを予測する方法です。
実際に発生している結果から未知の値がどのような結果になるか予測する値を目的変数といいます。
目的変数に対してどのぐらい影響を与えているかを説明する変数を説明変数といいます。

回帰には、単回帰と重回帰分析があります。
単回帰では説明変数が1つで重回帰では複数の説明変数を持ちます。
重回帰で説明変数が多い場合、特徴選択をして説明変数を減らすことができます。
その手法にフィルタ法・ラッパー法・埋め込み法があります。

線形回帰(線形モデル)

線形回帰(線形モデル)とは、回帰問題を解くためのアルゴリズムです。
一般的に関数を利用して予測(目的変数)を求めるものが直線回帰です。
散布図のようにプロットされた複数のデータがあった場合に、直線を引いて予測する手法です。
この直線のことを回帰直線といいます。
線形回帰の目的変数の求め方は、目的変数 = 回帰係数 × 説明変数＋切片で求めることができます。
回帰直線は次のように表します。

\[ \hat{y_i} = \hat{β}x_i + \hat{α} \]

お店を開いて、アルバイトを募集したいと考えたときにアルバイトの人のバイトをいくらにするのかを考えます。
そのとき、求人誌を開いて自身のお店に近いお店の求人を参考にしたいと考えます。
求人誌で開いたお店の情報などを説明変数として横軸にして時給でプロットしていき、いくつかプロットしたところで当てはまりのよさそうにいい感じに線を回帰直線を引くと次のような図になります。

実際に求人にでている時給を実測値といい、「y」と表します。
回帰直線では、説明変数が分かれば目的変数を求めることが行えてますので、自身のお店の時給(目的変数)を予測できます。

最適化

最適化とは、いい感じに線を引くために回帰係数や切片などのパラメータを調整することです。

外れ値

外れ値とは、通常の値と異なりとびぬけた値のことです。
先のプロットで、回帰直線からかなり離れた場所にある実測値が外れ値にあたります。

残差

残差とは、実測値から予測値である目的変数を引いた値です。
残差は次のように表します。

\[ e_i = y - \hat{y} \]

残差ではプラスとマイナスの値が発生してしまい、総和するとプラスとマイナスでは相殺されてしまいます。
そのため、二乗して面積にしてプラスにしてから総和する残差平方和があります。
残差平方和は次のように表します。

\[ S_e = S(\hat{α},\hat{β}) = \sum{(y - \hat{y})^2} \]

予測した値と実際の値が乖離している場合、回帰直線がいい感じになるように回帰係数や切片を調整する必要があります。
このような回帰係数や切片をパラメータといい、パラメータの推定には最小二乗法・尤度最大化などがあります。

回帰係数

回帰係数とは、回帰直線のパラメータの一つです。
回帰係数が、0に近いほど目的変数と説明変数は弱い相関といえます。
また、0に遠いほど(0.7～や-0.7～)強い相関といえます。
最小二乗法で求める場合は次のように表します。

\[ \hat{β} = \sqrt{{S_x}_y}{{S_x}_x} \]

切片

切片とは、定数項ともいい回帰直線のパラメータの一つです。
最小二乗法で求める場合は次のように表します。

\[ \hat{α} = \bar{y} - \hat{β}\bar{x} \]

決定係数

決定係数とは、回帰直線のあてはまりのよさを図る指標です。

\[ R^2 = \frac{{S_R}}{{S_y}} \]

S_Rは回帰直線の平均からの平方和で求めて、平均からの変動を表します。

\[ S_R = \sum{({\hat{y_i}}-{\bar{y}})} \]

S_yは基準の平均からの平方和で求めて、基準からの変動を表します。

\[ S_y = \sum{({y_i}-{\bar{y}})} \]

非線形回帰

教師あり学習の一つで、回帰問題を解くためのアルゴリズムです。
よく利用される基底関数に多項式関数・ガウス基底関数・スプライン関数などがあります。
線形回帰と同様にパラメータの推定問題には最小二乗法・尤度最大化があります。

正則化

正則化とは、過剰適合(過学習)を抑制するためにパラメータに何かしらの制約を課すことです。
具体的には、訓練誤差に損失関数で何かしらの罰則項を追加して緩和させます。
例えば、回帰などでは外れ値(他と比べて誤差が非常に大きい)の影響でパラメータを調整するとその外れ値に適合して未知のデータに適合できなくなる場合があります。
そのような場合に正則化法を利用して表現力を抑止しながら学習データに対して対応できます。
罰則項としてとL2正則化があります。
L1正則化はパラメータのマンハッタン距離を用いる方法です。
L2正則化はパラメータにユークリッド距離を用いる方法です。
ノルムとは距離になり、L1正則化ではL1ノルムをL2正則化ではL2ノルムの距離が使用されます。
L1ノルムで、ラッソ回帰(ひし形)でスパース推定を使用し、重みの一つが0になる場所を探します。
L2ノルムでは、リッジ回帰(丸)で縮小推定を使用し、正規化係数を大きくしても0に近づきますが完全に0にはなりません。
損失関数にL2ノルムを加えることで、パラメータの大きさに制約を与える手法を荷重減衰といいます。
L1正則化とL2正則化を足したものをエラスティックネットといいます。

説明変数(入力)から目的変数(出力)を求め、パラメータの推定問題には最小二乗法・尤度最大化があります。
線形回帰にL1正則化を適用したものがラッソ回帰で、パラメータ自体を削減します。
線形回帰にL2正則化を適用したものがリッジ回帰で、パラメータの発散を抑制します。
常用でないと判断された特徴量は自動的にモデルから消えるようになっています。

ロジスティック回帰

教師あり学習の一つで、分類問題を解くためのアルゴリズムです。
線形回帰の分類版で活性化関数に二値分類ではシグモイド関数を多クラス分類ではソフトマックス関数を使用します。
分類がうまくいかない場合に高次の特徴空間に写像したり、新たな説明変数(特徴量)を追加することで解決する場合もあります。
活性化関数を利用することで、そのモデルの表現力が上がります。
各関数の説明は活性化関数の項で後述しています。
説明変数にが多いほど表現力は高くなりますが、説明変数間に相関があるとよい推定ができない可能性があります。

\[ σ=\frac{1}{1+exp(-h)} \]

変数選択

変数選択とは、複数の説明変数の中から目的変数を基準に従って選択することです。

残差分析

残差分析とは、残差の傾向を分析することです。

一般化最小二乗法推定

一般化最小二乗法推定とは、回帰モデルの残差で相関がある場合に未知のパラメーターを推定します。

多重共線性

多重共線性とは、複数の説明変数で高い相関係数がある組み合わせが存在することです。

系列相関

系列相関とは、誤差に自己相関があった場合です。

ダービン・ワトソン(DW)

ダービン・ワトソンとは、回帰分析で誤差項の自己相関を検定する手法です。
ダービン・ワトソンは、誤差項が時間や順序などの特定のパターンで自己相関しているかどうかを評価するために使用されます。
自己相関がある場合、信頼性が低下する可能性があります。
ダービン・ワトソンの統計量は次のように定義されます。

\[ DW=\frac{\sum{t-2}^{T}(e_i-e_{t-1}^2)}{\sum{t-2}^Te_t^2} \]

DW比の範囲は0から4の間で2に近い場合は、残差の自己相関が少ないと考えます。
DW比が1.5から2.5の範囲の場合は、自己相関に問題があると考えます。
DW比が1.5未満または2.5以上の場合は、残差に自己相関が高いと考えます。

leverage

leverageとは、回帰係数の影響度を推定する手法です。

Q-Qプロット

Q-Qプロットとは、2つの確率分布の分位数を比較する手法です。

プロピット分析

プロビット分析とは、重回帰分析で目的変数をワンホットベクトルに置き換えて説明変数の影響を調べる手法です。

トービットモデル

トービットモデルとは、目的変数が一定の条件であったり限られた値の場合に目的変数の左打ち切りや右打ち切りが発生してしまう線形モデルのことです。
打ち切りのある場合のモデルを打ち切り回帰モデルともいいます。

比例ハザード

比例ハザードとは、ハザード関数を使用して共変量の単位増加することでハザード率が比例することです。

ニューラルネットワーク

人間の脳の中の構造を模範した手法です。
入力層で特徴量を受け取り重みで調整して出力層に渡します。
このときに活性化関数を使用します。
入力層と出力層しかないものが単純パーセプトロンで入力層と出力層の間に隠れ層があるものを多層パーセプトロンといいます。
多層パーセプトロンは単純パーセプトロンと同様に値を順番に伝播していく仕組みです。
層が増えていくと調整すべき重みが増加して、予測値と実際の誤差をフィードバックする方法を誤差逆伝播法といいます。
特徴量が増加して処理が遅くなるため、特徴量を減らして最適化することをプルーニングといいます。

← マルコフ連鎖と確率過程の基礎

分散分析と実験計画法 →