#統計 渡辺澄夫『ベイズ統計の理論と方法』の読み方①は

①頻度主義とベイズ主義を分けるダメな考え方の心の中からの排除

その次は

②自分でWAICやLOOCVをコンピュータ上で計算して、各種の定理を数値的に確認するという読み方

がお勧め。具体的にはp.119の定理15のβ=1の場合を確認するべき。続く
#統計 細かい計算や証明のフォローは上の②の後の③でよいと思う。

渡辺さんの本は数学的に難しい話をしている部分が多いのですが、それ以外によく宣伝されているダメな考え方への対策になっている解説も多数含まれており、そこから入ることができます。最初はそこを読むとよいと思う→①
#統計 あと、途中の計算や証明を飛ばして読んでも、コンピュータを使える人なら自分でWAIC(W_n)やLOOCV(C_n)を自分で実装して計算できるように書いてあります。

具体的な計算例を1つも知らずに証明を読んでも無意味だと思うので、証明を読み始める前にコンピュータで計算できるようになっておくべき。
#統計 私の経験では特にお勧めなのは、真の予測誤差とWAICが漸近的に相関係数-1で逆相関していることを意味するp.119の定理15のβ=1の場合数値的な確認を目標にすることです。

そのβ=1の式の両辺に2nをかけたものを数値的に確認するとよいです。続く
#統計 2nをかけた後のスケールは、統計学の世界でのχ²検定のスケールであり、伝統的にAICのスケールとしても使用されています。p.119の定理15のβ=1の場合の式の2n倍は

(2nG_n - 2nL(w₀)) - (2nW_n - 2nL_n(w₀)) = 4λ + o_P(1).

これによって双有理不変量の実対数閾値λの値も知ることができます!
#統計 正則モデルの場合には、モデルのパラメータ数をdと書くと、λ=d/2なので、4λ=2dとなり、上の式の右辺の4λはちょうどAICを定義するときのパラメータ数による罰則項に一致することになります。

WAICではなく、AICも4λ=2dの場合の同様の結果(p.80の下から10行目)を満たしています。
#統計 真の予測誤差とAICやWAICの逆相関(しかも漸近的に相関係数-1‼️)を意味する数学的定理があるにも関わらず、AICやWAICを使えばそれなりに高確率で予測誤差が小さいモデルの側を選択できる理由は、p.119の定理15のβ=1の場合の2n倍の右辺の4λが正の値になっているからです。
#統計 AICの場合のパラメータ数に関する罰則項の2d=(モデルのパラメータ数の2倍)の一般化になっている4λ=(モデルの実対数閾値の4倍)が重要な役目を果たしていることがよくわかる。

AICやWAICによるモデル選択について鮮明なイメージを得るためにp.119の定理15のβ=1の場合の数値的確認は役に立ちます。
#統計 さらに欲を言えば、p.119の定理15におけるL(w₀), L_n(w₀)をパラメータ数0のモデルの汎化誤差とWAICだと解釈し、その定理15をパラメータ空間が包含関係になっていて、小さな方のパラメータ空間にw₀が含まれる場合の汎化誤差の差とWAICの差の場合に一般化した場合も扱っておくべきです。
#統計 パラメータ空間が包含関係の意味で小さくなっているだけの部分モデルに最良パラメータw₀が含まれる場合は、数理統計学における最重要な基本定理であるWilks' theoremの設定そのものであり、その場合にp.119の定理15を一般化しておくことは大事なことだと思われます。
#統計 Wilks' theoremについては以下のリンク先のスレッドを参照。
#統計 渡辺澄夫『ベイズ統計の理論と方法』を読むだけの力のある人達が、Wilks' theoremのような古典的な統計学の結果を知らないままであるとしたら、社会的に大きな損失が生まれる可能性があると思います。

それだけ優れた能力があるなら、以下のリンク先の計算例を見ればすぐに理解できるはず。

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with 黒木玄 Gen Kuroki

黒木玄 Gen Kuroki Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @genkuroki

13 Nov
#統計 「真の分布」というのはジャーゴン(特定分野の特殊な言い回し)です。文字通りの意味にとってはいけない。

未知のものについての推測の勝ち目を増やすために数学を利用するためには、その未知のものとその推測方法の両方を数学的に定式化して性質を調べておく必要があります。続く
#統計 その未知のものを確率分布でモデル化するときのその確率分布を「真の分布」と呼ぶ人たちがいます。私は「未知の分布」(unknown distribution)という言い方をした方が誤解が少なくなると思っているのですが、「真の分布」というジャーゴンは結構広く普及していると思います。続く
#統計 未知のものの側のモデル化に付ける条件が少なければ少ないほど、適用できる未知のものの種類が増えるのですが、何の条件も付けないと実践的に役に立ちそうな推測を何もできなくなるので、応用先を狭めてかつ狭めすぎないように条件を付けるのが普通です。
Read 16 tweets
11 Nov
#統計 尤度の簡単な例

パラメータp_1,…,p_r (どれも非負の実数で総和は1)の多項分布モデルのデータk_1,…,k_r (どれも非負の整数で総和はn)に関する尤度函数は

L(p_1,…,p_r) = (n!/(k_1!…k_r!)) p_1^{k_1}…p_r^{k_r}.

最尤法の解は

p_i = k_i/n (i=1,…,r).
#統計 多くの場合に対数尤度函数の-1倍

-log L(p_1,…,p_r) = -Σ_{i=1}^r k_i log p_i + (定数略)

の方が扱いやすい。これを Σ_{i=1}^r p_i = 1 という条件のもとで最小化するには、Lagrangeの未定乗数法を使ったり、Gibbsの情報不等式を使えば簡単である。お好きな方法でどうぞ、という感じ。
#統計 そういう易しいが「実戦的な」計算をやらないと、

* Lagrangeの未定乗数法



* Jensenの不等式 (Gibbsの情報不等式を特殊な場合に含む)

などの

これこそ神!

と言えるような素晴らしい結果を大学1年のときにすでに習っていることに気付かずに終わる可能性が高い。
Read 10 tweets
11 Nov
#統計 Kullback-Leibler情報量

D(q||p) = ∫ q(x) log(p(x)/q(x)) dx

の統計学への応用におけるq,pに関する非対称性を理解するには、Sanovの定理について学ぶに限ります。

続く
#統計 分布pに従う乱数発生で分布qをシミュレートしたときに、もしもp≠qならば、確率的に指数函数的な速さでボロが出るのですが、その速さがKullback-Leibler情報量になっているというのがSanovの定理の内容です。

だからモデル分布pで真の分布をシミュレートしたい人にとってKL情報量は基本的。
#統計 大雑把に言うと、分布pのi.i.d. X_1, X_2, … について、

(X_1,…,X_nの経験分布がqに近い確率) = exp(-n D(q||p) + o(n))

となるという結果がSanovの定理。ちょっと雑すぎる説明ですが、「qに近い」の程度の違いはo(n)の項に吸収される。

1つ前のツイートと比較すると理解が深まるはず。
Read 29 tweets
11 Nov
#統計 私のツイッターでの設定(笑)のせいでずっと見えていなかったのですが、チョー算数問題における「掛算には順序があるから、掛算には順序がある」に類似の反応があったことに気付いたので記録に残しておく。

会話する価値が無さそうに見えたので安心してミュートしました。ごめんなさい。続く ImageImage
#統計 オーバーフィッティングを防ぐために使用可能ないわゆる「正則化」「罰則項」については、数値実験すれば色々納得できることも多いのですが、平易な証明付きのシンプルなモデルをいじりたいならば、James-Stein推定について調べてみると良いと思います。
#統計 その設定はこうです。

(1) データX=(X_1,…,X_n)が未知の平均μ_0=(μ_{01},…,μ_{0n})と単位行列の分散共分散行列を持つ多変量正規分布に従ってランダムに生成されている。

(2) データから平均μ_0を推定したい。

データ中の数値の個数と推定したい数値の個数が等しいという厳しい状況。続く
Read 17 tweets
10 Nov
#統計 WAICやLOOCVも計算してくれるベイズ統計のパッケージを使ったWAICやLOOCVの変種の計算は、多くの場合にWAICの誤用になっている疑いがあります。

本当は誰かが「WAIC警察」や「LOOCV警察」をやるべきかも。
#統計 Stanに代表されるMCMCのツールを使った計算では、所謂「階層ベイズモデル」になっているのが普通です。

その場合には、予測性能(汎化性能)を評価したい予測分布の正しいWAICやLOOCVの計算にはほとんどの場合に内部パラメータでの(数値)積分が必要なはずであり、結構面倒です。
#統計 Stanに与えるモデルの情報だけで、予測分布の定義は一意に決まらないので、予測分布に関する情報も欲しければ追加の情報をコンピュータに教えてあげる必要があります。

必要な数値積分をそのままクソ重くなることが多いはずなので、汎用のソフトを作るのは難しい問題だと思う。
Read 6 tweets
9 Nov
#統計 真の分布があるという仮定はもちろん都合の良い仮定です。真の分布についてのなにがしかの仮定のもとでのみ有効な数学的道具を現実に応用する場合には、必要に応じて真の分布に関する想定も疑う必要があります。続く
#統計 これは『統計的有意性とP値に関するASA声明』 biometrics.gr.jp/news/all/ASA.p… にも書いてあることにも類似していて、何かの妥当性を疑う場合には【背後にある仮定】を全部まるっと丸ごと疑う必要があります。(もちろん、それぞれの項目ごとに疑わしさには違いがあることにも注意する。)
#統計 例えば、サイコロを何度もふってどの目がどれだけの確率で出るかを推定する場合には、通常、サイコロの出目のデータの真の生成法則は未知の分布のi.i.d.でよく近似できると想定しますが、サイコロが脆弱で振るたびにちょっとずつ壊れてしまう場合にはその想定が不適切であることは明らか(笑)
Read 11 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Too expensive? Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal Become our Patreon

Thank you for your support!

Follow Us on Twitter!