確立と確率変数

確率には実際に発生する頻度確率と信念からなるベイズ確率があります。
頻度確率とは、コインを投げた時に裏または表がでることやサイコロを振った事象が発生することをいいます。
信念からなるベイズ確率とは、医者が患者の症状を伺いどれぐらいの確率で何の病気かを言い当てることです。

確立

確率とは、発生する可能性がある事象のことです。
コイン投げやサイコロを投げなど繰り返し行う実験や観測のことを試行といいます。
事象とは、コインを投げた時に裏または表がでることやサイコロを振って何かしら数値がでる試行の結果です。

確率は0から1の値をとり、必ず発生しない「0」と必ず発生する「1」が最大値になります。%で表記するならば、最大は100%と表記できます。
よくある確率としてコイン投げで裏がでる確率は表が「1/2」で裏が「1/2」で、サイコロを振って「1」がでる確率は「1/6」です。

Pythonでサイコロを作成して試行するには次を入力して実行します。

#試行

diceA = rd.randint(1,6)

#事象

print(diceA)

確率変数

確率変数とは、事象を変数としてその変数の値が発生する確率です。
確率の英語であるProbabilityの頭文字をとった「P」を用いて取りうる値の変数「X」(大文字)を使用して「P(X)」と表記します。
サイコロの例ではサイコロを振ると「1」~「6」の目のいずれかが考えられ、この発生するすべての事象の総数を場合の数といいます。
「X」はサイコロであれば、1,2,3,4,5,6の値のいずれかとなります。
サイコロの場合であれば、「発生した事象/場合の数」として次のようになります。

\[ P(X)=\frac{1}{6} \]

確率分布

確立分布とは、確率変数と事象が発生する確率を対応させた分布のことです。
確率分布を特徴づける定数のことをパラメータといいいます。
サイコロを振った場合の確率分布は次のように表します。

サイコロの出る目 1 2 3 4 5 6
確率 1/6 1/6 1/6 1/6 1/6 1/6

確率関数

サイコロを1回振って「3」がでた場合を考えると確率変数に発生した「3」を定義して「P(X=3) = 1/6」と記載できます。
この定義のことを確率関数といい、「1/6」を確率といいます。
これは、1回で発生した事象「3」が分子にきて、場合の数は1,2,3,4,5,6の6通りとなり分母に6がくるため、「3」が出る確率を1/6と導きだせます。
一般化しますと関数にf(x)を用いて次のように表します。

\[ P(X=x) = f(x) \]

累積分布関数

累積分布関数とは、確率変数Xの値がx以下になる関数のことです。
グラフが確率を表します。 大文字の「F」を利用します。

\[ F(x)=P(X≤x) \]

サイコロを振った場合を考えたときにx=3としたら、サイコロの「1」と「2」と「3」を足して次のように表します。

\[ F(x)=P(X=1) + P(X=2) + P(X=3) \]

分位点関数

分位点関数とは、第一四分位数や第三四分位数よりも細かい分位数を求めます。
累積分布関数の逆関数になります。

期待値

期待値とは、確率で発生すべき事象(加重平均)のことです。
発生する事象に応じた確率変数に事象の確立を掛けてすべて足し合わせて計算します。
期待値は次のように表します。

\[ E[X]=\sum{p_i x_i} \]

サイコロであれば、確率は「発生した事象/場合の数」ですので確率変数である1,2,3,4,5,6の6通り掛けて足し合わせます。
結果「3.5」となります。

\[ E[X]=\frac{1}{6}\times{1}+\frac{1}{6}\times{2}+\frac{1}{6}\times{3}+\frac{1}{6}\times{4}+\frac{1}{6}\times{5}+\frac{1}{6}\times{6}=3.5 \]

分散

確率の分散を求めるには、期待値を「μ」として次のように表します。

\[ V[X]=\sum{(x_i-μ)}^2p_i=E[X^2]-(E[X])^2 \]

サイコロの場合の分散は次のように記載できます。

\[ 2.916666=\frac{1^2\times2^2\times3^2\times4^2\times5^2\times6^2}{6}-(3.5)^2 \]
共分散 共分散は0になる

確率母関数

確率母関数とは、確率関数の性質(期待値や分散など)を求めるための関数です。

\[ G(s)=E[s^X]=\sum_{x}s^xp(x) \]

積率母関数(モーメント母関数)

積率母関数(モーメント母関数)とは、確率関数の性質(モーメント)を求めるための関数です。

\[ M(t) = E(e^{tx}) = \sum{e^{tx}}・f(x) \]

全事象

全事象とは、場合の数と同じですが、統計では「Ω」のギリシャ文字で表記します。
サイコロを振ったときに発生する全事象は、全事象Ω={1,2,3,4,5,6}と表示できます。
確率としてΩがくれば必ず「1」がきます。

\[ P(Ω)=1 \]

余事象

サイコロを振って「1」以外が出る確率を求めたいときに最大値である「1」から「1」がでる確率の「1/6」を引いて「5/6」と求めれます。
「A={1}」とした場合の、Aの余事象といい「Ac={2,3,4,5,6}」と表示します。
サイコロを振って「1」と「2」がでる確率も「1」の出る確率「1/6」と「2」の出る確率「1/6」を足し合わせて「2/6」と求めれます。

\[ Ω = P(A) \cup P(A^c) \]

空事象

空事象とは、事象が存在しない空の状態のことです。
ギリシャ文字の「φ」を利用して表示します。
φ={}と表示できて、確率としてφがくれば必ず「0」になります。

\[ P(φ)=0 \]

排反

サイコロを振って「1」と「2」の目が同時にでることは起こりません。
同時に発生しないことを排反であるといいます。

統計的独立

統計的独立とは、複数の事象が発生しても別の事象に影響が受けないことです。
サイコロが2つあり、1つ目のサイコロAを振って何かしらの目がでても2つ目のサイコロBの目には何の影響も与えないです。
サイコロAとサイコロBの2つの事象に因果関係がない場合、積事象が成り立ちます。

\[ P({A}\cap{B})=P(A)\times P(B) \]

2つのサイコロを投げたときにどちらも「1」になる確率は「1」の出る確率の積事象で求めれます。

\[ \frac{1}{6}\times\frac{1}{6} = \frac{1}{36} \]

加法定理

加法定理とは、各事象の和です。
サイコロを振って「1」がでる確率は1/6でしたが、「4」がでる確率も1/6です。
では、サイコロを振って「1」と「4」のどちらかがでる確率はとなったときに確率を足すことで求めることができます。
「1」がでる確率「1/6」と「4」がでる確率「1/6」を足した結果として「2/6」となります。
排反であるかないかによって式が異なります。

排反である場合は、前述しているように単純に足し算をするだけです。
事情「A」と事情「B」の排反である場合の加法定理は次の式で求めれます。

\[ P({A}\cup{B})=P(A)+P(B) \]

排反でない場合は、事象「A」と事象「B」の共通の事象を引きます。
例えば、生徒が10人いて5人がカレーが好きで4人が牛丼が好きで両方とも好きなのが2人いたとします。
その場合、カレーまたは牛丼が好きな人を求めたい場合、カレー好きと牛丼好きを足すと9人になります。
しかし、カレーと牛丼の両方とも好きな2人は重複してしまいます。
そのため、事情「A」と事情「B」を足してから共通である両方とも好きな2人を引いて、7人がカレーまたは牛丼が好きな人と求めれます。

この考え方を包除原理といいます。
事情「A」と事情「B」の排反でない加法定理は次の式で求めれます。

\[ P({A}\cup{B})=P(A)+P(B)-P({A}\cap{B}) \]

条件付き確率

条件付き確率とは、ある事象「A」が発生しているときにある事象「B」が発生する確率です。
例えば、サイコロを振った時に4以上でかつ偶数になる確率です。
ある事象「A」が4以上ならば、事象「B」は偶数になります。
このような条件付きの事象は、「P(A|B)」として、事情Bが与えられた場合のAの確率で次の式で求めれます。

\[ P(A|B)=\frac{P({A}\cap{B})}{P(B)} \]

条件付き確率は、縦棒の「|」(ギブン)の記号を利用します。

同時確率

同時確率とは、統計的独立していた場合の事象「A」と事象「B」の確率です。
事象Aと事象Bの積事象として求めることができ、次の式で求めれます。

\[ P({A}\cap{B})=P(A)P(B|A)=P(A)P(B) \]

同時確率分布

同時確率分布とは、確率変数Xと確率変数Yの対応関係の表です。
次のような表になります。

X / Y y1 y2 ......
x1 p11 p12 ...... p1
x2 p21 p22 ...... p2
q1 q2 ...... 1

同時確率関数

同時確率関数とは、2つの確率変数「X」と「Y」がある場合に同時確率分布に従いXがxの値をYがyの値を求めます。

周辺確率関数

周辺確率関数とは、同時確率分布からXとYの確率分布を求めます。

周辺確率分布

周辺確率分布とは、同時確率分布のf(x1)やf(y1)の総和であるp1やq1などです。

ベイズの定理

ベイズの定理とは、排反である事象「A」と事象「B」など複数の事象から事前確率と事後確率を利用して原因の確率を求めます。
例えば、複数の工場で商品を生産していて、商品に欠陥があった場合にどの工場から欠陥が発生する確率を求めたい場合に使用します。
事後確率を「P(B|A)」とした場合に事前確率は「P(B)」として、事象と条件付き確率の積で求めることができます。
次の式で求めれます。

\[ P(A)P(B|A)=P(B)P(A|B) \]

大数の法則

サイコロ投げではどの目も理論的には「1/6」の確率ででます。
しかし、少ない試行では理論的な確率にはなりません。

大数の法則とは、大数の法則の一つで数回の試行では理論的な数値になりませんが多くの試行により理論的な確率に近づくことです。
例えば、サイコロ投げでも2回~3回ならたまたますべてが「1」だったなどの試行が発生しますが、1000回など実施すれば限りなく1/6に近づきます。

Pythonの乱数を利用して6回、600回、60000回サイコロを振ったときの

#サイコロ試行

def roll_dice(n):

setA = np.arange(0)

for x in range(n):

setA = np.append(setA,rd.randint(1,6))

return setA

#6回サイコロを振って1の目が出た回数

print(np.count_nonzero(roll_dice(5) == 1))

#600回サイコロを振って1の目が出た回数

print(np.count_nonzero(roll_dice(599) == 1))

#60000回サイコロを振って1の目が出た回数

print(np.count_nonzero(roll_dice(59999) == 1))

離散型確率分布

離散型確率分布とは、コイン投げやサイコロを振った時の確率分布のことです。
コイン投げの結果は裏「1」か表「0」でサイコロを振ったっときの目は「1」から「6」までの整数でした。
このようにとびとびの値を取る確率を分布にしたものが離散型確率分布です。

連続型確率分布

連続型確率分布とは、連続の値をとる確率分布です。
離散型確率分布では、整数以外の少数を持った整数同士の間の値などが発生しませんでしたが連続型では発生します。

統計の基礎で作成したサンプルデータですが、全体を最大の1として考えて身長が200を超えるデータはどれぐらいの割合かを考えるときに連続型確率分布が利用されます。

連続型の確率変数

連続型の確率変数では、長さや重さ時間などを利用します。
人の身長であれば「170.00002」cmのように170cmと171cmに整数だけでなく少数点も含む無数の値が含まれます。
連続型の場合、ある1つの値を考えることが難しいですので、連続値とした確率密度を求めます。

確率密度関数

離散型では、確率関数を利用していましたが連続型では「確率密度」を求める必要があります。
確率密度関数とは、連続型確率分布で「確率密度」を求める確率関数です。
積分して求めます。全て足し合わせれば離散型の確率分布と同じく最大値は「1」となります。

\[ f(x)=\lim_{ε \to \infty}\frac{P(x{<}X{≤}+ε)}{ε} \]
\[ \displaystyle \int_{-\infty}^{ \infty } f(x) dx = 1 \]

連続型の累積分布関数

連続型も離散型と基本同じで密度になっているだけです。
大文字の「F」を利用して、xの値まで積分して求めます。

\[ F(x)=P(X≤x)=\int_{-\infty}^{ x } f(x) dx \]

連続型の期待値

連続型の期待値も基本的に概念は変わりませんが、積分して求めます。

\[ E[X]=\int_{-\infty}^{ \infty } xf(x) dx \]

連続型の分散

連続型の期待値も基本的に概念は変わりませんが、積分して求めます。

\[ V[X]=\int_{-\infty}^{ \infty } (x-μ)^2f(x) dx = E[X^2]-(E[X])^2 \]

積率母関数(モーメント母関数)

連続型の積率母関数(モーメント母関数)も基本的に概念は変わりませんが、積分して求めます。

\[ M(t) = E(e^{tx}) = \int_{-\infty}^{ \infty }e^{tx}・f(x)dx \]

同時確率密度関数

同時確率密度関数とは、連続型の確率変数で2つの確率変数「X」と「Y」がある場合にXとYの同時確率分布を求めます。

条件付き確率密度関数

連続型の条件付き確率密度関数も基本的に概念は変わりませんが、積分して求めます。

周辺確率密度関数

連続型の周辺確率密度関数も基本的に概念は変わりませんが、積分して求めます。

生存関数

生存関数とは、一定時間が経過した場合に生存しているかの確率を求めます。
ある時刻を「t」としたときに生存しているか生存していないかです。
生存している場合を生存関数といいS(t)として、生存していない場合を死亡関数といいF(t)とします。

\[ S(t) = 1 - F(t) \]

ハザード関数

ハザード関数とは、一定時間が経過して生存しているがその後に死亡する確率を求めます。

\[ h(t) = \frac{f(t)}{S(t)} \]

モーメント

モーメントとは、確率関数の性質(モーメント)です。
確率関数の性質とは、期待値、分散、分布が歪度や尖度などがどのようになっているかです。
統計の基礎で作成したサンプルデータがどのような性質かを調べたいときに利用します。
原点と期待値を利用して、確率関数がわかっていなくても計算が行えます。

原点を利用したものを積率といい、確率変数Xのk乗として次のように表します。
また、kが「1」のときに期待値はE[X]になります。

\[ μk'=E[X^k] \]

期待値を利用した場合は、確率変数Xから母平均を引きます。
また、kが「2」であれば前述している分散になります。

\[ μk=E[(X-μ)^k] \]

歪度

歪度とは、期待値を利用したモーメントでkが3で分母に母分散の3乗であるσ3を利用したものです。
分布が左右対称であるか横側の指標を図ります。
歪度は、次の式で求めれます。

\[ 歪度=\frac{{E[(X-μ)^3]}}{σ^3} \]

歪度が「0」よりも小さい場合、左袖が長い分布になります。(+)
歪度が「0」よりも大きい場合、右袖が長い分布になります。(-)
歪度が「0」の場合、左右対象の正規分布となります。

尖度

尖度とは、期待値を利用したモーメントでkが4で分母に母分散の4乗であるσ4を利用したものです。
分布の尖り具合の指標を図ります。
尖度は次の式で求めれます。

\[ 尖度=\frac{{E[(X-μ)^4]}}{σ^4} \]

歪度が「3」よりも小さい場合、一様分布になります。
歪度が「3」よりも大きい場合、袖が長くなります。
歪度が「3」の場合、左右対象の正規分布となります。
※「3」ではなく、「0」と定義する場合もあります。

変数変換

変数変換とは、確率関数「X」が存在していてそれから分析しやすい別の確率変数「Y」に変換することです。
変数変換は、データの性質や分布を変更することで、統計的な分析やモデリングの改善が行えます。
対数変換、平方根変換、ボックス=コックス変換などがあります。

ヤコビアン

ヤコビアンとは、多変数関数の微分に関連する行列や行列式を表す数学的な概念です。
ヤコビアンは主にベクトル値関数の微分に関連していて、多変数ベクトル値関数の微分係数を示す行列として定義されます。
ヤコビアン行列は次のように表します。

\[ J(\mathbf{f}) = \begin{bmatrix} \frac{\partial f_1}{\partial y_1}&\frac{\partial f_1}{\partial y_2}&\ldots&\frac{\partial f_1}{\partial y_n} \\ \frac{\partial f_2}{\partial y_1}&\frac{\partial f_2}{\partial y_2}&\ldots&\frac{\partial f_2}{\partial y_n} \\ \vdots&\vdots&\ddots&\vdots \\ \frac{\partial f_m}{\partial y_1}&\frac{\partial f_m}{\partial y_2}&\ldots&\frac{\partial f_m}{\partial y_n} \end{bmatrix} \]

確率変数の線形結合の分布

線形結合とは、複数の確率変数を定数倍して、足し合わせることです。
新しい確率変数を「Y」として、線形結合した場合には次のように表せます。

\[ Y = a_1X_1 + a_2X_2 + \ldots + a_nX_n \]

正規分布の線形結合と一般の確率分布の線形結合があります。