#統計 Kullback-Leibler情報量

D(q||p) = ∫ q(x) log(p(x)/q(x)) dx

の統計学への応用におけるq,pに関する非対称性を理解するには、Sanovの定理について学ぶに限ります。

続く
#統計 分布pに従う乱数発生で分布qをシミュレートしたときに、もしもp≠qならば、確率的に指数函数的な速さでボロが出るのですが、その速さがKullback-Leibler情報量になっているというのがSanovの定理の内容です。

だからモデル分布pで真の分布をシミュレートしたい人にとってKL情報量は基本的。
#統計 大雑把に言うと、分布pのi.i.d. X_1, X_2, … について、

(X_1,…,X_nの経験分布がqに近い確率) = exp(-n D(q||p) + o(n))

となるという結果がSanovの定理。ちょっと雑すぎる説明ですが、「qに近い」の程度の違いはo(n)の項に吸収される。

1つ前のツイートと比較すると理解が深まるはず。
#統計 KL情報量には、一意復号化可能な符号化の平均符号長が最良の場合よりもどれだけ大きくなってしまっているかを表している、という解釈もあって、こちらの方が「情報量」という用語にはフィットしていると思います。その場合にqはソース側の確率分布で、-log pは符号化での符号長の意味になる。
#統計 以上のような話は、有限集合上の易しい場合について、私による解説

genkuroki.github.io/documents/2016…

に全部書いてあります。ただし、pとqの記号がひっくり返っているので注意。(全部書き直したい😭)
#統計 モデル分布pで未知の真の分布qをシミュレートしたい人はKL情報量のSanovの定理が超絶基本的なことをすぐに納得できるはず。

そして~続き
#統計 そして、特別な形の分布qで、正確な事後分布pのサンプルの経験分布として(MCMC法で得られるのも事後分布のサンプルであった)、最も出て来やすいものを見つけたい人(変分ベイズ 法を使いたい人)も、KL情報量のSanovの定理が基本的なことを理解できるはずです。
#統計 以上の解説をすぐに理解してしまうような人であれば、統計学における確率論の「三種の神器」は

* 大数の法則
* 中心極限定理
* KL情報量のSanovの定理

の3つであることに賛成してくれると思う。

最後のSanovの定理が十分に普及していないせいで、重要で基本的なことを理解し難くなっている。
#統計 そういうことに気付いて書いたのが上で既出の解説

genkuroki.github.io/documents/2016…

なのですが、何度も繰り返し紹介してはいますが、正直な気持ちとして解説としてあんまり成功していないと思っていて色々アレな感じ。

しかし、英語も含めて代わりになる解説は__まだ__ないと思う。(誰かが書くべき)
#統計 KL情報量のSanovの定理は、確率論における所謂「大偏差原理」の易しい場合になっています。

確率論におけるi.i.d.の漸近論において、大数の法則、中心極限定理、大偏差原理は普通に基本的な話題なのですが、最後の大偏差原理だけはまだ一般に普及していない感じ。
#統計 i.i.d.の大偏差原理は、物理的にはi.i.d.の場合の統計力学のおもちゃです。物理的な状況では「独立性」が成立していない場合が多いので、物理的な統計力学の方がi.i.d.の大偏差原理よりもずっと難しいです。

統計力学を知らなくてもi.i.d.の大偏差原理は易しく理解可能です。
#統計 i.i.d.の大偏差原理を物理の統計力学っぽく説明したものがあればうれしい人達は結構いるはずで、そういう話も既出の「失敗作」である

genkuroki.github.io/documents/2016…

に書いてあります。
#統計 i.i.d.の大偏差原理から出るi.i.d.のカノニカル分布(i.i.d. X_1,X_2,…,X_nの全体が熱浴に対応し、X_1が熱浴に接している系という扱い)の応用として、ガンマ分布を出す動画が以下のリンク先にある。要するにコンピュータで遊べる話題です。
#統計 ガンマ分布はパラメータを2つ持っていて、それらは逆温度の一般化になっています。

ガンマ分布に似ている名のないパラメータが2つの分布をコンピュータシミュレーションで作っている動画が以下のリンク先にある。
#数楽 おそらく「熱浴」の概念は数学全体で大事。

自分が興味を持っている「いかにも熱浴が無関係そうな分野」において何らかの「熱浴」の概念を作って利用してしまうというようなことはきっと大事。

twilog.org/genkuroki/sear…
#統計 KL情報量の日本語版ウィキペディアはSanovの定理に言及しておらず、非常によろしくない。

統計学での使い方は赤池弘次さんの1980年の論説

jstage.jst.go.jp/article/butsur…
エントロピーとモデルの尤度

を見れば分かります。そのp.610の右側で解説されていることが実質的にSanovの定理です。 ImageImage
#統計 一般に「ダイバージェンス」という非常に一般的な場合の特別な場合として「Kullback-Leiblerダイバージェンス」と呼んでしまっている人達の多くは、KL情報量が特に基本的である理由になっているSanovの定理を知らないのではないか?

赤池弘次さんの論説もあまり読まれていない印象あり。
#統計 Kullback-Leibler情報量入門としても、赤池弘次さんの1980年の論説は最良のものだと思う。

jstage.jst.go.jp/article/butsur…
エントロピーとモデルの尤度
日本物理学会誌35巻(1980)7号

これに限らず、日本物理学会誌に載っている解説は勉強になるものが多い。学生時代には図書館でよく読んでいた。 ImageImage
#統計 AIC関連スレッドの紹介

KL情報量で測った未知の真の予測誤差の(一致性のない)推定量としてAICは非常に有名だが、漸近的に相関係数-1で真の予測誤差とAIC(正確にはその差)が逆相関することはあまり知られていないと思う。

真の予測誤差とAICでは平均からの揺らぎの向きが正反対。
#統計 ある条件のもとで、真の予測誤差の大小を推測するために使われるAICと真の予測誤差がきれいに逆相関するという数学的事実(ゆえにひっくり返せない事実)を初めて知った人は、「あれ?それで大丈夫なの?」と思わずにいられないと思う。

その辺について既出の以下のスレッドでも触れている。
#統計 たぶん、私以外に言っていないことだが、渡辺澄夫著『ベイズ統計の理論と方法』の非常に良いところは、未知の真の予測誤差とAICなどの情報量規準の漸近的な逆相関(相関係数-1‼️)についてきちんと定理の形で書いてあること。

私はその解説に大いに学ぶ所があった。
#統計 AICなどの情報量規準は未知の真の予測分布の期待汎化誤差の推定量だとみませるのですが、いわゆる「一致性」(サンプルサイズn→∞で未知の真の値に収束するという条件)を満たさない。

AICなどの情報量規準は一致性を満たさない推定量で役に立つものの例になっている。

しかし~続く
#統計 一致性を持たない推定量なのにAICなどの情報量規準が役に立つ理由は、その値そのものよりも、その値の大小関係が重要だからです。

しかし、一致性を持たない推定量の本性はイメージし難い。Wilks' theoremや真の予測誤差との逆相関などの諸々の事柄について知って、初めてイメージが湧く感じ。
#統計 AICのような情報量規準が真の予測誤差と逆相関している場合には、サンプルが運悪く偏っていたせいで真の予測誤差がものすごく大きくなると、その予測誤差がものすごく大きくなった側が情報量規準でモデル選択されることになります。
#統計

要するに運悪くサンプルが偏っているせいで予測誤差がものすごく大きくなるとそのモデルが選択され易くなる😱

これは情報量規準によるモデル選択を現実社会における政策に繋げる場合には真のリスクになる可能性があります。

しかし、この指摘をしている人を私以外に見たことがない。
#統計 これは別に情報量基準だけの問題ではなく、帰無仮説と対立仮説を比較する仮説検定でも同様の問題があります。

AICによるモデル選択とχ²検定はWilks' theoremを通して繋がっているので、これは当然。(モデル選択と仮説検定は無関係な別ものという考え方は誤り。すべてが地続きで繋がっている。)
#統計 統計学はお墨付きを得るための道具ではないです。

原理的にはギャンブルそのものだと思っておいた方がよいと思う。

ギャンブルを他人に勧める人はその人リスクについても正直に語らなければいけない。
#統計 KL情報量について学んで、KL情報量で未知の真の予測誤差を書けることを知り、さらにAICや交差検証について知った人が、AICや交差検証と未知の真の予測誤差が「ほぼ同じ」と誤解することは絶対に避けなければいけない。

漸近的にきれいに逆相関しているものを「ほぼ同じ」と思っちゃダメ。
#統計 各分野の専門家は、社会的に重大な決断に関係している統計分析の結果が、データに基いたモデル選択によって行われている場合には、特別に運悪くデータが偏っていた可能性にも考慮して、リスクを下げる方策を提案する社会的責任があると思う。

各分野固有の専門知識は非常に重要。

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with 黒木玄 Gen Kuroki

黒木玄 Gen Kuroki Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @genkuroki

13 Nov
#統計 「真の分布」というのはジャーゴン(特定分野の特殊な言い回し)です。文字通りの意味にとってはいけない。

未知のものについての推測の勝ち目を増やすために数学を利用するためには、その未知のものとその推測方法の両方を数学的に定式化して性質を調べておく必要があります。続く
#統計 その未知のものを確率分布でモデル化するときのその確率分布を「真の分布」と呼ぶ人たちがいます。私は「未知の分布」(unknown distribution)という言い方をした方が誤解が少なくなると思っているのですが、「真の分布」というジャーゴンは結構広く普及していると思います。続く
#統計 未知のものの側のモデル化に付ける条件が少なければ少ないほど、適用できる未知のものの種類が増えるのですが、何の条件も付けないと実践的に役に立ちそうな推測を何もできなくなるので、応用先を狭めてかつ狭めすぎないように条件を付けるのが普通です。
Read 16 tweets
12 Nov
#統計 渡辺澄夫『ベイズ統計の理論と方法』の読み方①は

①頻度主義とベイズ主義を分けるダメな考え方の心の中からの排除

その次は

②自分でWAICやLOOCVをコンピュータ上で計算して、各種の定理を数値的に確認するという読み方

がお勧め。具体的にはp.119の定理15のβ=1の場合を確認するべき。続く
#統計 細かい計算や証明のフォローは上の②の後の③でよいと思う。

渡辺さんの本は数学的に難しい話をしている部分が多いのですが、それ以外によく宣伝されているダメな考え方への対策になっている解説も多数含まれており、そこから入ることができます。最初はそこを読むとよいと思う→①
#統計 あと、途中の計算や証明を飛ばして読んでも、コンピュータを使える人なら自分でWAIC(W_n)やLOOCV(C_n)を自分で実装して計算できるように書いてあります。

具体的な計算例を1つも知らずに証明を読んでも無意味だと思うので、証明を読み始める前にコンピュータで計算できるようになっておくべき。
Read 13 tweets
11 Nov
#統計 尤度の簡単な例

パラメータp_1,…,p_r (どれも非負の実数で総和は1)の多項分布モデルのデータk_1,…,k_r (どれも非負の整数で総和はn)に関する尤度函数は

L(p_1,…,p_r) = (n!/(k_1!…k_r!)) p_1^{k_1}…p_r^{k_r}.

最尤法の解は

p_i = k_i/n (i=1,…,r).
#統計 多くの場合に対数尤度函数の-1倍

-log L(p_1,…,p_r) = -Σ_{i=1}^r k_i log p_i + (定数略)

の方が扱いやすい。これを Σ_{i=1}^r p_i = 1 という条件のもとで最小化するには、Lagrangeの未定乗数法を使ったり、Gibbsの情報不等式を使えば簡単である。お好きな方法でどうぞ、という感じ。
#統計 そういう易しいが「実戦的な」計算をやらないと、

* Lagrangeの未定乗数法



* Jensenの不等式 (Gibbsの情報不等式を特殊な場合に含む)

などの

これこそ神!

と言えるような素晴らしい結果を大学1年のときにすでに習っていることに気付かずに終わる可能性が高い。
Read 10 tweets
11 Nov
#統計 私のツイッターでの設定(笑)のせいでずっと見えていなかったのですが、チョー算数問題における「掛算には順序があるから、掛算には順序がある」に類似の反応があったことに気付いたので記録に残しておく。

会話する価値が無さそうに見えたので安心してミュートしました。ごめんなさい。続く ImageImage
#統計 オーバーフィッティングを防ぐために使用可能ないわゆる「正則化」「罰則項」については、数値実験すれば色々納得できることも多いのですが、平易な証明付きのシンプルなモデルをいじりたいならば、James-Stein推定について調べてみると良いと思います。
#統計 その設定はこうです。

(1) データX=(X_1,…,X_n)が未知の平均μ_0=(μ_{01},…,μ_{0n})と単位行列の分散共分散行列を持つ多変量正規分布に従ってランダムに生成されている。

(2) データから平均μ_0を推定したい。

データ中の数値の個数と推定したい数値の個数が等しいという厳しい状況。続く
Read 17 tweets
10 Nov
#統計 WAICやLOOCVも計算してくれるベイズ統計のパッケージを使ったWAICやLOOCVの変種の計算は、多くの場合にWAICの誤用になっている疑いがあります。

本当は誰かが「WAIC警察」や「LOOCV警察」をやるべきかも。
#統計 Stanに代表されるMCMCのツールを使った計算では、所謂「階層ベイズモデル」になっているのが普通です。

その場合には、予測性能(汎化性能)を評価したい予測分布の正しいWAICやLOOCVの計算にはほとんどの場合に内部パラメータでの(数値)積分が必要なはずであり、結構面倒です。
#統計 Stanに与えるモデルの情報だけで、予測分布の定義は一意に決まらないので、予測分布に関する情報も欲しければ追加の情報をコンピュータに教えてあげる必要があります。

必要な数値積分をそのままクソ重くなることが多いはずなので、汎用のソフトを作るのは難しい問題だと思う。
Read 6 tweets
9 Nov
#統計 真の分布があるという仮定はもちろん都合の良い仮定です。真の分布についてのなにがしかの仮定のもとでのみ有効な数学的道具を現実に応用する場合には、必要に応じて真の分布に関する想定も疑う必要があります。続く
#統計 これは『統計的有意性とP値に関するASA声明』 biometrics.gr.jp/news/all/ASA.p… にも書いてあることにも類似していて、何かの妥当性を疑う場合には【背後にある仮定】を全部まるっと丸ごと疑う必要があります。(もちろん、それぞれの項目ごとに疑わしさには違いがあることにも注意する。)
#統計 例えば、サイコロを何度もふってどの目がどれだけの確率で出るかを推定する場合には、通常、サイコロの出目のデータの真の生成法則は未知の分布のi.i.d.でよく近似できると想定しますが、サイコロが脆弱で振るたびにちょっとずつ壊れてしまう場合にはその想定が不適切であることは明らか(笑)
Read 11 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Too expensive? Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal Become our Patreon

Thank you for your support!

Follow Us on Twitter!