シムレーション、計算多用手法
シムレーションとは、ランダムなデータセットを生成して、統計の手法やモデルの性能を評価します。
データ生成プロセスは、仮定した確率分布やモデルに基づいて行います。
シムレーションを多く繰り返すことで、統計の手法の性能のばらつきや信頼性を評価できます
計算多用手法とは、数値計算やアルゴリズムを使用して複雑な確率分布やモデルに対して推論します。
計算多用手法として、ブートストラップ、モンテカルロ法、マルコフ連鎖モンテカルロ法があります。
サンプリング
統計の基礎で、母集団の一部であるデータである標本を取得しておりましたが、これをサンプリングといいます。
サンプリングを適切に行わないとデータの偏りが発生してしまい、母集団の推定ができなくなります。
サンプリングの方法には次の手法があります。
-
無作為抽出(ランダムサンプリング)
標本を取得するときにランダムに選択する手法です。
乱数生成やランダム選択のアルゴリズムで偏りがないようにデータを抽出します。 -
層別抽出(層化サンプリング)
標本を取得するときに母集団の要素をいくつかの層に分割して、各層から無作為にサンプルを選択する手法です。
各層ごとに適切に取得することで、層毎のデータが抽出可能です。 -
系統抽出
標本を取得するときに規則を決めて、一定の間隔で規則通りに選択する手法です。
奇数や偶数などのルールを決めてn個目の奇数のデータを取得するなどです。 -
クラスタサンプリング
標本を取得するときに母集団を複数のグループに分割して、一部のグループから無作為に選択する手法です。
棄却法
棄却法とは、解析時に乱数の利用が難しい場合に複雑な確率分布の乱数を利用する手法です。
ブートストラップ
ブートストラップとは、標本からの再標本抽出を繰り返し行い統計的な推定値や信頼区間を評価する手法です。
ブートストラップは、利用可能な標本データから複数回のサンプリングして、それぞれのサンプリングから得られる統計量の分布を推定します。
マルコフ連鎖モンテカルロ法
マルコフ連鎖モンテカルロ法は、MCMCと略されてマルコフ連鎖から確率分布をサンプリングして確率分布に収束するようサンプルを収集する手法です。
MCMCは、ベイズ統計で事後分布のサンプリングで利用して、複雑なモデルやパラメータ空間における不確実性を推定します。