モデル選択

モデルとは、確率分布を使用してパラメータを最適化したものです。
モデル選択について記載します。

交差検証

交差検証とは、モデルの性能評価やハイパーパラメータの選択を行う手法です。
交差検証では、データを複数の部分に分割して、複数のモデルを訓練・評価します。 そのため、過学習を防いで、信頼性の高い性能評価が行えます。
代表的なものにk分割交差検証があります。

k分割交差検証

訓練データと検証データを入れ替えながらk回実施する手法です。
1回目:検証-訓練-訓練、2回目:訓練-検証-訓練、3回目:訓練-訓練-検証のように実施します。
計算時間が多くなるのがデメリットですが、並列に処理させることで短縮させることも可能です。
k回の評価の平均を取ることで最終的な性能を評価します。
全てのデータが一度ずつテストデータとして使用されますので、モデルの性能評価が偏りにくくなります。

赤池情報量基準(AIC)

赤池情報量基準とは、モデルの性能評価を行う手法です。
赤池情報量基準は、モデルの予測性能とパラメータ数から過学習を抑制するようにしています。
AICは以下の数式で表されます

\[ AIC=−2×log(L)+2×k \]

尤度(L)を利用して、データの適合度を求めます。
尤度が大きいほどデータの適合度がよくなります。
パラメータ(k)の数が多いほど複雑なモデルになります。

AICでは、小さいほうがデータの適合度がよくてモデルの複雑さがバランスよくなっております。
そのため、AICが小さいほうが良いモデルとされています。