一貫した例で非常にわかりやすく、線形モデル(LM)→一般化線形モデル(GLM)→混合一般化線形モデル(GLMM)→階層ベイズモデル(H-GLMM)を解説している。 こっちはPRMLと違って目的意識がはっきりしており、非常にわかりやすかったので、読む前と後での変わった視点を列挙します。 勉強したこと 離散・カウントデータはポワソン分布か二項分布か負二項分布(p.165)が普通 ポワソンは上限なし、二項分布は上限あり。 連続データは正規分布かガンマ分布が普通 ガンマ分布は下限0。正規分布は2自由度。 割算値の統計モデリングは二項分布+ロジスティック回帰で可能 p.130 交互作用は交互作用の説明変数を2次で突っ込む p.127 分散の逸脱から分布に従っていそうかを判定することができる 応答変数yのモデリング(GLM, GLMM, H-GLMM) x->yの予測の時に、 y=f(x), fは線形関数、とモデリングするとLM †y=exp(f(x)), fは線形関数、とモデリングするとGLM †y=exp(f(x)+r_i), r_iはパラメータsに特徴づけられる確率変数、sは定数、とモデリングするとGLMM †y=exp(f(x)+r_i), r_iはパラメータsに特徴づけられる確率変数、sは確率変数、とモデリングするとH-GLMM †GLMMを使うかは、過分散と局所的変動の有無と、観測されなかった原因不明な個体差と場所差の有無で判断 過分散(p.148), 局所的変動(逆に大局的な変動GLMの変数で十分)、どう原因不明かはp.151(反復と擬似反復の基準p.163) フルモデル推定はナンセンス 推定自由度は低く。 p.155 GLMは分布を混ぜあわせてるから変なモデリングができている p.157 H-GLMMでは無条件分布や恣意的事前分布を葉としてDAGが描ける expは負にならないのでカウントデータだと特に便利 AICモデル選択方法 前: AICのモデル選択は、今まではぶっちゃけよくわからない指標で、本当に実際使うべきなのかなあ 後: fitnessではなく、モデルの予測性能で評価するから偉い とりあえず図にして第0直感を得るの大事 Rグラフィクスみたいなのを読むべきかな 箱ひげ図は情報が多くて強い mean, stdだけだと心もとない 対数リンク関数は効果が解釈しやすい 効果が掛け算になる ロジットリンク関数は 効果がオッズになる(p.125) 分布によってカノニカルなリンク関数が決まっている MCMC: メトロポリス法
無条件事前分布には、広い正規分布(定義域[-∞, ∞])か、区間を区切った一様分布(定義域有限)を使う 階層ベイズモデルは、MCMCで推定 階層ベイズモデルの空間相関は、r_iに隣接項に依存する正規分布を設定 再帰的になるがなんとかなる, p.246 空間相関は欠損データがある場合の生成モデルに強い そりゃね データの変数変換して回帰・ANOVAは話にならない それは本当に正規分布になりますか 疑問 ノンパラにはノンパラの前提があるので注意、とあるがどうやるの? p.51 Wald統計量がわからない |