目次
- 解析の種類
- 解析の手順
- データの記述
- 解析の複雑さとデータ数
- 検定
- 変動係数(Coeff of var)
- 高次元データ
- 見る情報の潰し方
- 多変量解析関係
- 次元圧縮
- ノンパラ相関係数
- PCA
- 因子負荷量
- ICA
- 相互相関解析
- Surrogate random shuffle
- PSI, PLV, SPLV
- 因果指標
- 信号の時定数
- 時間ずれ
- 因果検定
- 分布の確認
- 効果量
- 混合ディクリレ
- from 日本語 to 解析語
- 時間遅れ
- まとめてないもの
- 少ないデータの見方
- 感度解析
- Tips
解析の種類
- データの構造,比較,全体,の三つのうちのどれかを見るものに大別される.
解析の手順
仮説を立てる
- 仮説有りき.
仮説の説明
- データに量を適当に定義して,その性質を想像して,どの値がどんな性質なら,仮説を支持するかを考える.
- 仮説を支持する,とは,データから仮説との対応を取らなければならない,ということ.
- 弱い接地=納得,知見との定性的対応
- 強い接地=知見との定量的対応
- 言いたいことの必要条件を考える.
- 運動は切り替えタイミングだけ見る,時間方向になます,空間方向になますとか,仮説を取り込んでいく.
- どんな仮説を取り込んだかはきちんと意識.
- 何を同じとみなすかを決める。(位相差があっていれば良いのか、距離が近ければいいのか)
- 評価基準を明らかにする。(よく演奏できたとは何か。)
- なんでも比較しないと何も言えない.
- (a)今までの知見(b)時間方向(c)空間方向(d)トライアル内対応(e)トライアル間対応などがある.
- 無理なら,データをひたすら見てみて「記述する」ことでデータを理解する.データと仲良しになる.
実際に解析
- ストーリーがうまく組み上がったら,データの性質を調べてそれを検証する.
- (a)仮説がもっともらしいか?(b)データがどういう解像度か,そもそも言いたいことが言える解像度なのか?
データの記述
- 難しいデータの場合,そもそも何が起きているのかを定量的に調べ,きちんと文章にして伝えられるくらいにすることが大事.
- 「データを記述する」=「恣意性を入れてわい小化し,情報を落とす代償に低次元化を行い,わかりやすく説明すること.」
- 注意: 情報を落とし過ぎると意味がなくなる.(高次元データをただsumしただけ,とかだとその性質が潰れすぎている)
- 高次元なデータは特に,何が同じで何が同じではないかを定義するのが難しい.そのため,高次元データでは特にデータの記述が必要となる.
解析の複雑さとデータ数
- 解析は単純ならデータ数が少なくて済む.
- 下ほど複雑.
- 時間差,随伴性,相関
- 因果
検定
資料
-
Yさん紹介検定
- http://kogolab.chillout.jp/elearn/hamburger/
- 読んだけど,全然意味がわからなかった.
-
Yさん紹介検定一覧
- http://www.shiga-med.ac.jp/~koyama/stat/s-index.html
- もう少し理解してから読めば分かるかな.
-
統計学を勉強しましょう
多群の分散分析
- Friedman test, Bonferroni test
変動係数(Coeff of var)
- 標準偏差/平均
高次元データ
- 多次元の対処法.
- imagesc (ニューロン発火マップ)
- PCA(シナジー)
- sum(ニューロン平均発火率)
見る情報の潰し方
時間
- max
- mean
空間
- なます
- 節に区切る
トライアル
- 平均
- 分散
多変量解析関係
次元圧縮
- L.J.P.van der Maaten, E.O.Postma, H.J.van den Herik "Dimensionality reduction: A comparative review" (2008) <a href=http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.125.6716&rep=rep1&type=pdf>論文
- PCA
- 独立成分分析
- 多次元尺度法
- 制限つきボルツマンマシン
- シナジー
- Deep Learning (自動特徴抽出)
ノンパラ相関係数
- MIC(新たな相関係数.x, yの相互情報量に着目,連続関数なら全部1.0)
- MIC-row^2(非線形性の指標)
- MAS(単調整の指標)
PCA
- http://home.a02.itscom.net/coffee/takoindex.html
- PCAはクラス間の関係など考えていない
- クラスタリングをしたいのに何も考えず PCA で次元を削減すると、判別に必要な情報まで削減してしまうかもしれません。横に長くて縦にクラスタが違う2次元画像.'.'.'.'.'.'とかを考えれば自明。(参考)
- PCAでは伸縮拡大で主成分が変わる。
- 従って、異なる単位のものを一緒くたに突っ込んではならない。もし突っ込みたいなら、このメートルとキログラムは同じ意味があるのだ、ということを自問しなければならない。
因子負荷量
- https://upo-net.ouj.ac.jp/tokei/xml/k3_01006.xml
- 第i主成分の軸が,説明変数によってどのように張られているかを知ることができる.
- 第i主成分の固有値λ_iと固有ベクトルh_i(in R^p)に対して、因子負荷量z_ij = sqrt(λ_i)*h_ijとなる。
- z_ij = 「h_ijと第i主成分との相関係数」に相当する。
- 各主成分の寄与を見るのが「寄与率」、各主成分に対する説明変数の寄与(=相関)を見るのが「因子負荷量」。
- 一方で、固有ベクトルと因子負荷量は単に定数倍されただけなので、その意味を見ないで大小関係だけ見るなら別に固有ベクトルをそのまま見れば良い。
ICA
相互相関解析
- http://bsd.neuroinf.jp/wiki/%E7%9B%B8%E4%BA%92%E7%9B%B8%E9%96%A2%E8%A7%A3%E6%9E%90
- 時間をずらして積を足しまくる。足す長さが長くなるので、τ=0で大きくなりがち。
- 周期運動の位相差を計算するときに使える。
Surrogate random shuffle
-
例
-
何らかの性質を保存した状態で,時系列をシャッフルしたデータを用いて順位検定を行う.
- 棄却は,元のデータが保存させた性質を持たないことを表す. | Method | H0 | H1 | | --- | --- | --- | | random shuffle | オリジナルデータは確率過程にしたがう | 確率論的ではない.決定論的である | | Fourier shuffle | オリジナルデータが正弦波の重ね合わせ(線形結合)で記述される | 正弦波の線形結合で記述されない | | period-shuffle | 脈波の各周期にはダイナミカルな相関が存在しない | 各周期が無意味に並んでいるのではない.周期間にダイナミクスが存在する |
-
例えば,正規分布a=(a_1, ..., a_n)から正規分布b(b_1, ..., b_n)への随伴性について,aとbが無関係でないことを示すために,sd(a_i-b_i)と,bをperiod surrogateした集合bについてvar(a_i-b_i)を計算して,順位検定するとか.
-
なお,surrogateは順列で爆発するので,ある程度の構造を持たせてPeriod Surrogateすることがある.完全順列とか,Shift Collectedとか.
PSI, PLV, SPLV
- http://dspace.wul.waseda.ac.jp/dspace/bitstream/2065/37617/3/Honbun-5695.pdf
- ある時点,ある周波数に対して適用可能.
- 2変量時系列のTrial k本に対して,2変量時系列のHirbert変換(時間t, 周波数fにおける時系列の位相の計算)後,(t, f)での2変量間の位相差の単位複素数,の平均の大きさをPSIと呼ぶ.
- 全ての試行が完全に同一の位相差を持つときPSIは最大値1を取り、全ての試行の位相差がランダムであるときPSIは最小値0に収束する。
- 応用例
- http://unit.aist.go.jp/htri/event/HTRIpresentation/pdfData/13_H22Q1HTRIpre_Takeda.pdf
- SPLVは時間窓を設けて,一つの時系列からPLVができるようにしたもの,らしい.きちんと読んでない.Studying Single- Trials of Phase Synchronous Activity in the Brain参照.
- これらの指標の有意差検定はsurrogateによる.
- これがチュートリアルらしいが,よくわからなかった.
因果指標
概要
- (渋谷崇先輩の卒論->渋谷先輩の修論->石黒さんの修論の順に読むと良いかも.実際に使っているのは竹中さんのD論文.山下さんも使っているらしい.)
- Granger Causalityは回帰モデルなので,具体的なダイナミクスや2変数の関係が出てくる.よって,データの予測,ロボットの自立学習などに利用可能である.
- Transfer Entropy(TE)は,yの情報を入れることでxの遷移確率がどれだけ変化するかを表す.確率密度を計算する必要があるが,これは連続値データの最小値・最大値の間のヒストグラムをn_s個に分割することによって近似して推測する.非線形性はここで吸収される.
- Continuous Transfer Entropy(CTF)は,時系列に正規分布を前提することによって,ヒストグラムによる確率分布の推定を,遅延埋め込みベクトルの直積の共分散の演算に置き換える.
- Granger Causalityは(GC)は,x->xのARモデルの誤差項とx, y->xのそれをと比較することによって,yがxにどれだけ寄与するかを表す指標である.
- 遅延埋め込みベクトル多項式埋め込みベクトルに拡張したGC with PEVも存在する.
時間的に非定常な因果
- 主に2つのアプローチがある.
- (1)Moving Window Analysis, 因果が存在しそうな範囲を限定して,Granger Causalityを時間窓を区切りながら計算.
- (2)石黒さんのCausality Marker.Granger Causalityを重み付け係数に関して偏微分し,最急降下法によって重み付け変数を推定することで時間的にlocalizeされた因果を抽出する.
信号の時定数
- どうやら「信号の時定数」なるものをきちんと把握してからでないと,きちんと解析できないらしい.
- よく分かってない.
時間ずれ
- 見たい因果に,ある知見から時間遅れがある場合は,そもそも適応する時系列をずらしておくという手がある.山下さんのD論参考.
因果検定
- これが具体例もあり分り易かった.
分布の確認
- [r, p] = corrとscatterで確認.
- Yさんいわく,あまりp値は意味がない.正規分布でもサンプルが少ないとp値は随分低くなる.
効果量
- いい加減なことをいう人が,p値とt検定による平均値の検定に意味がないというのが最近の主流,と主張していたので,これを勉強してみようかなと.
混合ディクリレ
- mixture ディレクレのbinarize版があるらしい.拍手,音楽などがあるかないかを逐一0, 1で学習.→戦略が勝手にでるんじゃね?
from 日本語 to 解析語
- 逆に言うと,ここに書いた日本語くらいしか解析できない.
- 無関係であるはずだ→無相関
- 関係があるはずだ→相関
- 共存→線形→MIC-row^2
- 非共存→非線形
時間遅れ
まとめてないもの
- 性質をみるだけのデータ解析は,完璧じゃなくても適当に判断することもできる.
- 随伴性は,なんかとなんかの時間差のヒストグラム
- データの性質,と言ったとき,同じ次元のものだったら,相関を見るのがとてもはやい.
- 変数間にどんな関係があるか?という解析はよくやる.その時は無相関性を見ると良い.その時,p値を見れば,その信頼性も分かる.
- 関係のないデータと関係のあるデータを分離できるか?を考えることは不毛.関係のないデータは考えないで良い.
- トレンドからの変動
- スパイクデータ解析 http://spike.eng.tamagawa.ac.jp/multi/spikeanalysis.htm
- Phase Lock
- with inの比較では,完全のモノが変わるのではなく,どこが共通でどこが共通でない,みたいなのが出れば考察がリッチにできる.
- データの性質がどうなっているか?によって解析の手法はガラッと変わる.大きいのは-非負性,バイナリか連続か(点過程?連続?)
- 書きたい図を想像しながらやると良い.
- リカレンスプロット,ラスタプロット
- 人に何かを見せるときは縦軸と横軸が何なのかを先にいう,伝える.
- 頻度であればヒストグラム,その他,見たいものに対して,どんな表示が良いかを考える.
- 見たいものが常にある感じ.しかも合目的的に.
- とりあえず全部やるのではなく,できるだけ定量的な基準を採用する.
- 平均と分散で記述してしまうと,軌道分散の構造が見えなくなってしまう.軌道を重ね書き(薄く)&トレンドの記述が綺麗.
少ないデータの見方
- boxプロットは全部を乗せるやつ。Nが少ないときによくつかう
感度解析
- ビジネスでよく使えそう https://bizzine.jp/article/detail/1632
Tips
- データサイエンティストになりたい人向け,超絶いいまとめ