FrontPage
概要 †
- 確率を直感的に考えていると、式変形が哲学的になりがち
- 「解説はこう書いてあるが、俺はこう考える」みたいなのを避けましょう
心構え †
- 確率論ではパラレルワールドがいっぱいあるような状況を想定して、それぞれの世界での結果をまとめるという気持ちでいる
- 具体的な計算に置いては、パラレルワールドを面積1の正方形で表現する感じで考察する
- 確率密度関数はインクのにじみ
変数変換 †
- \( Z=g(X) \)とする。確率密度関数\( f_X(x) \)は知っているとして、\( f_Z(z) \)を求めたい。
- \( \displaystyle f_Z(z) = \frac{1}{\det(\partial Z / \partial X)} f_X(g^{-1}(z)) \)
- \( Z=2X \)を想定すれば簡単で、要するにZの空間では範囲が広くなった分だけ確率密度関数が薄まる
正規分布 †
- \( \bf{Z} \)をn次元標準正規分布とする。
- これを変数変換して、\( N(\mu, V) \)を構成したい
- \( X=RDZ+\mu \)なる変換を噛ませばいける
- \( V[X] = RDZD^t R^t = RD^2R^t \)である(R, Dが揺らがないため、多次元の分散の公式から。また、\( V[Z] = I \))
- ここで、\( V=RD^2R^t \)なる、直交行列Rと対角行列Dを探してきたい。
- これは簡単で、\( R^t V R = D^2 \)なるR, Dを探すのは、固有値と固有ベクトルそのままである。
- \( X \)の等高線を図示するためには、\( col(R, i) \)方向に\( D_{ii} \)の長さの主軸を持つ楕円を描けば良い。
擬似乱数 †
- 一様分布を加工する
- \( F(y) \)を確率変数Yの累積分布関数とする。ここで、\( Y=F^{-1}(X) \)が計算できる場合は、\( X \)に[0, 1)上の一様分布をぶっこむと\( Y \)の擬似乱数が得られる
- 正規分布はBox-Mullerで生成しましょう
- \( X_1, X_2 \)を[0, 1)上の一様分布として、\( \sqrt{-2 \log X_1} \cos(2 \pi X_2) \), \( \sqrt{-2 \log X_1} \sin(2 \pi X_2) \)は二次元標準正規分布に従う
いろんな不等式 †
- Starlingの公式
- Jensenの不等式
- Gibbsの不等式
- Markovの不等式
- \( P(X \ge c) \le E[X] / c \)
- 当たり前(\( s = P(X \ge c) \)とすると、その時点で\( E[X] \ge sc \))
- Chebyshevの不等式
- Markovから言える。\( P(|Y-\mu| \ge a \sigma) \le a^{-2} \)(期待値から\( a \)だけかけ離れた値が出る確率の低さは\( a^{-2}以下 \))
- 正規分布に限らず、任意の分布について言えているのがすごいね
- Chernoff限界
- Minkowskiの不等式
- \( E[|X+Y|^p]^{1/p} \le E[|X|^p]^{1/p} + E[|Y|^p]^{1/p} \) (これは任意ノルムの三角不等式に対応している)
- Hoelderの不等式
- \( E[|XY|] \le E[|X|^q]^{1/q} E[|Y|^q]^{1/q} \) (これは任意ノルムのシュワルツの不等式に対応している)
いろんな収束 †
- 概収束
- これが満たされていると個々の世界線\( \omega \)に縛られた人間でも収束を直接感じることができる。
- 確率収束
- パラレルワールドを横断しても、どの時間についても収束している
- 二次平均収束
- \( E(|X_n-X|^2) \rightarrow 0 \)ならば必ず確率収束する
- 法則収束
- 成り立つもの
- 概収束->確率収束
- 二次平均収束->確率収束
- 確率収束->法則収束
特性関数 †
- 特性関数は、確率密度関数のフーリエ変換らしきものになっている
KLと大偏差原理 †
- 確率\( t \)で表になるコインを\( n \)回投げて、表の割合が\( s \)になるような確率は、\( n \rightarrow \infty \)の時どれくらいの速度で下がるか?
- 結論、\( \log P(表がs割) \approx -nD(p||q) + o(n) \)
- ただし\( p \)が確率\( t \)で表になる二項分布で、\( q \)が確率\( s \)で表になる二項分布
- このことで面白いのは、\( t=0.1 \)と\( s=0.2 \)を区別するより、\( t=0.5 \)と\( t=0.6を区別するほうが圧倒的に難しいということ \)
|