下位ページ †
EMアルゴリズム †
- どんなもの?
- 潜在変数を考えると推定がぐっと簡単になるときに有用なアルゴリズム
- 正確には、p(Z | X, θ)が計算可能かつp(X, Z| θ)が最大化可能ならば、p(X | θ)が繰り返し計算により局所最適化可能
- 最尤推定の局所最適解を E ステップ と M ステップ の二つのステップの繰り返しにより求める.
- EMアルゴリズムの抽象化
- 混合ガウス:アドホックに
- 期待値Qの最大化(完全データの生起確率の潜在変数に対する期待値Qの最大化)
- 自由エネルギー(自由エネルギー-Fをminとするqを前提とした時、-Fをminとするパラメータθの探求)
- Tips
- Dynamic Time WarpingのEMアルゴリズム的解釈がある? [Jur van den Berg+, 2010]
- Kalman SmoothingがEMアルゴリズムのEステップをになう [Jur van den Berg+, 2010; M, Jordan]
SVM †
- どんなもの?
- 超平面とデータの距離を最大化するように学習する。
- 学習は二次計画問題となる。不等号付きラグランジュ(KKT条件)を利用することで双対問題に帰着することで解く。
- 種類
- ハードSVM
- ソフトSVM
- 高次元写像SVM(←カーネルトリック)
確率論 †
- 確率は以下で形式的に解ける
- 確率の公理: \( \displaystyle \sum_X P(X_1|Y) = 1 \), \( \displaystyle \sum_{X_1} \sum_{X_2} P(X_1, X_2|Y_1, Y_2) = 1 \)
- 加法定理: \( \displaystyle P(X) = \sum_Y P(X, Y) \)
- 乗法定理: \( P(X, Y) = P(X | Y) P(Y) = P(Y | X) P(X) \)
- ベイズの定理: \( P(X|Y)P(Y)=P(Y|X)P(X) \)
- 「依存」を条件付き確率として表す: \( \alpha \)を1つのみの値をとる定数確率変数とする。\( P(\bf{w}|\alpha) \)がgivenの時、\( p(\bf{w}(\alpha)|x) \)を\( p(\bf{w}|x, \alpha) \)と表記することがある
- 条件付き確率にするということは、全事象をいじること!
- パラメータ\( \bf{w} \)とデータ\( \mathcal{D} \)に対して、\( P(\mathcal{D}|\bf{w}) \)を尤度関数、\( p(\bf{w}) \)を事前確率、\( p(\bf{w}|\mathcal{D}) \)を事後確率と呼ぶ。
- 尤度関数は、「このモデルを前提した時、このデータが得られる確率」という意味
頻度主義 v.s. ベイズ主義 †
- 頻度主義は、パラメータ\( \bf{w} \)を点として推定。ベイズはその分布も推定
- 頻度主義で分布を推定する方法:ブートストラップ。データの一部のみから推定するのを何回もモンテカルロ的に繰り返す
- 頻度への批判
- サンプル分散が\( (N-1)/N \)だけ分散が過小評価される
- ベイズへの批判
- 分布を与えると恣意的になる。しかも大抵与え方が数学的便宜。
- 分布を与えない無条件事前分布というのがあるが、モデル間比較が困難
- 交差確認で回避できる
|