推定

推定とは、標本から母集団の特徴を推測することです。
具体的には、観測されたデータから推定量を使用して、未知のパラメータや母集団の特性に関する情報を推定します。
統計の基礎で記載しておりますが、本章で推定の詳細を記載します。
推定には、点推定と区間推定に分かれます。

点推定

点推定とは、標本から平均値など一つの値で推定します。
点推定の手法には、最尤推定法や最小二乗法があります。
点推定の性質として、一致制と不偏性があります。

推定量

推定量とは、統計量の一つで標本から母集団の平均値など計算方法や計算式のことです。
推定量は、標本平均や不偏分散を利用して計算します。

推定値

推定値とは、推定量から計算した値です。
「θ」の記号の上にハットを利用して、点推定であれば平均値など推定します。

一致制

一致制とは、標本のサンプル数を大きくすると母集団の値に近づくことです。
標本平均や標本分散などが標本のサンプル数を大きくできれば母集団の平均や分散が確率収束します。

\[ \hat{θ} \rightarrow {θ} \]

不変性

不変性とは、サンプル数がいくらであっても、その期待値は母集団の値と同様である性質です。
一致制では標本のサンプル数を大きくしないといけませんが、不偏性は標本のサンプル数の大きさには関係ありません。

\[ E[\hat{θ}] = {θ} \]

区間推定

区間推定とは、標本分布を利用して平均値など存在する範囲(信頼区間)を推定します。
区間推定は次の流れで実施します。

信頼区間

信頼区間とは、パラメータが特定の区間に存在する確率があるときの区間です。
信頼区間では、統計的な推定の不確実性を示すために使用されます。
信頼区間の計算には、標準誤差や信頼係数などを利用します。

標準誤差

標準誤差とは、標本から得られる推定量の散らばり具合です。

\[ se(\hat{θ}) \]

信頼係数

信頼係数とは、信頼率ともいい信頼区間の範囲に含まれる確率αです。
通常このαは、95%または、99%が利用されます。

信頼限界(下側信頼限界、上側信頼限界)

信頼限界とは、被覆確率ともいい区間の推定で信頼区間の上限または下限のことです。
上限は上側信頼限界ともいい、信頼区間の上端で、推定されたパラメータがこの上側信頼限界よりも大きい値であることを指します。
下限は下側信頼限界ともいい、信頼区間の下端で推定されたパラメータがこの下側信頼限界よりも小さい値であることを指します。

片側信頼限界(下側片側信頼限界、上側片側信頼限界)

片側信頼限界とは、片側検定時の信頼限界のことです。
信頼区間を一方向に制約して、信頼限界と同じく上側信頼限界または下側信頼限界があります。
片側信頼限界の上側信頼限界は、上側片側信頼限界といい上限の信頼される範囲です。
分布の右側(上側)の領域に対する信頼限界です。
片側信頼限界の下側信頼限界は、下側片側信頼限界といい下限の信頼される範囲です。
分布の右側(左側)の領域に対する信頼限界です。

十分統計量

十分統計量とは、標本データから得られる情報がパラメータに関する情報を最大限に保持する統計量(十分性を持つ)のことです。
十分性とは、標本から得られた情報が十分であることです。

フィッシャー・ネイマンの分解定理

フィッシャー・ネイマンの分解定理とは、検定統計量が帰無仮説の下で十分統計量であるときに関数の分解ができることです。
分解することで、統計量の分布が特定できて検定の効果的な実施や特性の理解がしやすくなります。

順序統計量

順序統計量とは、標本の確率変数を決められた順序で並べることです。
決められた順序とは、最小の値で並べ替えをする最小順序統計量や最大の値で並べ替えをする最大順序統計量などがあります。
順序統計量の重要な性質として、それらが無作為標本から抽出された場合に、それぞれの順序統計量が同じ分布に従います。

尤度

尤度とは、推測する尤もらしい尤度関数値のことです。
あるパラメータや仮説が与えられた条件下で観測したデータが生じる確率密度関数または確率質量関数の値を表す尺度です。
尤度は通常、尤度関数として表現されます。

尤度関数

尤度関数とは、標本から確率を求めるときの尤もらしい関数です。
観測したデータを「x」としてパラメータを「θ」とすると次のような関数になります。

\[ L(θ|x)=f(x|θ) \]

最尤法(最尤推定)

最尤法(最尤推定)とは、尤度を最大化するようなパラメータを推定します。
尤度を最大化して推定した値のことを最尤推定値といいます。
例えば、母平均がわからない場合に標本から尤もらしい母平均を推定します。

対数尤度

対数尤度とは、尤度の対数変換したことです。
対数変換することで尤度を対数空間に移して掛け算(尤度)を足し算(対数尤度)に変換しますので、計算が簡単になります。
尤度関数を対数変換して次のように表します。

\[ 対数尤度(θ|x)=log L(x|θ) \]

局外パラメータ

局外パラメータとは、確率分布を推測するときに影響しないパラメータです。
局外パラメータは、統計的モデルで主要なパラメータ以外のパラメータを指します。
局外パラメータは、ノイズやデータ生成過程の複雑さを捉えるために導入されることがあります。

最小二乗法

最小二乗法とは、残差の二乗和を最小にするパラメータの推定です。
観測したデータと仮定されたモデルとの誤差を最小化するようなパラメータを求める手法です。

モーメント法

モーメント法とは、多元連立方程式を解くパラメータの推定です。
母集団のモーメントと標本のモーメントが等しいと仮定してパラメータを推定します。
最尤法の計算が困難な場合に行われます。

有効性

有効性とは、真の効果や差異を検出するもので精度が良いことです。
検定の効果の大きさ、サンプルサイズ、有意水準、統計的手法の選択によって異なります。

推定量の相対効率

推定量の相対効率とは、異なる推定量の精度を比較するための指標です。
異なる推定量が同じ母集団から得られた標本に対してどれだけ効果的があるかを示して、相対的な効率を比率します。
相対効率は、異なる推定法や統計モデルがどれだけデータから効果的に情報を取得できるかを比較するのに役立ちます。

マルコフ過程

マルコフ過程とは、未来に起こる事象の確立が過去の状態に依存せず現在の状態にのみ依存して発生する確率過程です。
離散時間の場合に「マルコフ連鎖」といい、連続時間の場合は「マルコフ過程」といいます。

ガウス・マルコフの定理

ガウス・マルコフの定理とは、不偏な線形推定量を残差が最小になるように最小二乗法で求めて分散が最小になる定理です。
ガウス・マルコフの定理は、線形回帰モデルで誤差項が正規分布に従っている場合に適用されます。
例として、誤差項は独立で同じ分散を持つ正規分布に従っていて説明変数と誤差項が無相関であることです。

情報量

情報量(平均情報量)とは、ある出来事がどれぐらい送りづらいかです。
自己情報量はlogを利用して底が2なら単位はビットで、底がeなら単位はナットになります。

シャノンエントロピー

シャノンエントロピーとは、微分エントロピーともいい自己情報量の期待値です。
シャノンエントロピーは、確率分布が均等な場合に最大で、確率分布が特定の値に偏っているほど最小になります。
エントロピーが大きいほど、情報の不確実性が高くなります。
シャノンエントロピーは次のように定義します。

\[ H(X) = - \sum_{i=1}^n P(X=x_i) \log_2(P(X=x_i)) \]

カルバック・ライブラー ダイバージェンス

カルバック・ライブラー ダイバージェンスとは、同じ事象で推定と実際の値を比較します。
2つの確率分布がどれだけ異なっているかを示します。
異なる確率分布「P」と「Q」の間のカルバック・ライブラーダイバージェンスは次のように定義します。

\[ D_{KL}(P \,||\, Q) = \sum_i P(i) \log\left(\frac{P(i)}{Q(i)}\right) \]

交差エントロピー

交差エントロピーとは、カルバック・ライブラー ダイバージェンスの一部を取り出したものです。
2つの確率分布や確率密度関数の間にどれだけ違いがあるかを示します。
2つの確率分布「P」と「Q」の間の交差エントロピーは次のように定義します。

\[ H(P, Q) = -\sum_{i} P(i) \log(Q(i)) \]

フィッシャー情報量

フィッシャー情報量とは、確率変数Xの情報量です。
確率分布や確率密度関数の微小な変化に対する情報の量を表します。
この情報量は、パラメータの推定における標準誤差や効率性を評価します。
フィッシャー情報量は次のように定義します。

\[ I(\theta) = -\mathbb{E}\left[\frac{\partial^2}{\partial\theta^2}\log f(X;\theta)\right] \]

最尤推定量の漸近正規性

最尤推定量の漸近正規性とは、最尤推定量が標本サイズが大きくなると、その分布が漸近的に正規分布に近づく性質です。
最尤推定量が標本サイズが十分に大きい場合には、中心極限定理によって、その推定量の分布が正規分布に近似できます。
最尤推定量の漸近正規性は、一致性、漸近正規性が満たされている必要があります。

ジャックナイフ法

ジャックナイフ法とは、標本を再利用して、推定量のバイアスを補正する方法です。
ジャックナイフ法は、データから1つの観測値を取り除いて新たな統計量を計算するという手順を繰り返して標本全体に対する統計量を評価します。

クラーメル・ラオの不等式

クラーメル・ラオの不等式とは、一様最小分散不偏推定値を判定します。
不偏推定量の精度に関する基本的な不等式で、推定量の分散の下限を示し、どのような不偏推定量もその下限を下回ることはできないことを指します。
クラーメル・ラオの不等式は、確率密度関数または確率質量関数が一般的な条件を満たす場合に適用されます。
I(θ)をフィッシャー情報量としてクラーメル・ラオの不等式は次のように定義します。

\[ \text{V}(\hat{\theta}) \geq \frac{1}{nI(\theta)} \]