#統計 添付画像は

ism.ac.jp/editsec/toukei…
情報量規準AICの統計科学に果たしてきた役割
小西 貞則
2019

のp.204より。

この論説は、正直に言って、かなり落胆しながら読んだ。

BICもKL情報量の推定量とみなせるので、添付画像の引用部分は非常に変です。続く Image
#統計 渡辺澄夫『ベイズ統計の理論と方法』に近い記号法で説明します(私のTLではよく読まれている教科書)。

データX_1,X_2,…は未知の分布q(x)のi.i.d.であるとし、分布族p(x|w)と事前分布φ(w)によるベイズ統計について考えます。第2章の正則モデルの設定を仮定。

続く
#統計 モデル内での仮想的なデータの分布は

p(x_1,…,x_n) = ∫p(x_1|w)…p(x_n|w)φ(w)dw

と書け、分析対象のデータの分布は

q(x_1)…q(x_n)

と書ける。これらのKL情報量は

-∫q(x_1)…q(x_n) log p(x_1,…,x_n) dx_1…dx_n
+ (モデルによらない定数)

の形になります。
#統計 自由エネルギー F_n の定義は

F_n = - log p(X_1,…,X_n)

であり、分布q(x)のi.i.d. X_1,…,X_n の確率的揺らぎに関するその期待値 E[F_n] は

E[F_n] = -∫q(x_1)…q(x_n) log p(x_1,…,x_n) dx_1…dx_n

と書けます。
#統計 以上の2つのツイートの自明な結果より、自由エネルギーの期待値 E[F_n] はモデルによらない定数の違いを除けば、モデル内における仮想的なデータの分布と推測先の真のデータの分布のKL情報量に一致します。
#統計 だから、もしも、自由エネルギーの期待値 E[F_n] の推定量で使い物になるものがあれば、モデル内における仮想的なデータの分布と推測先の真のデータの分布のKL情報量の意味での違いの大小をデータから推測できることになります!
#統計 ちょっと大胆に聞こえるかもしれませんが、自由エネルギーの期待値 E[F_n] の推定量として、期待値を取る前の自由エネルギー F_n を採用しても、それらの漸近挙動から実用的なモデル選択が可能になりそうなことがわかっています!
#統計 自由エネルギーの期待値 E[F_n] の推定量としての F_n をさらに大胆に近似したものが BIC です。

自由エネルギーの期待値 E[F_n] は本質的にKL情報量なので、その推定量とみなされた自由エネルギー F_n や BIC を「情報量規準」と呼ぶことは、普通の名付け方に過ぎません。
#統計 正則モデルの場合の自由エネルギー F_n のn→∞での漸近挙動の詳細は、渡辺澄夫『ベイズ統計の理論と方法』のp.64、定理2に書いてあります。

この手の本を読んだ人はこのスレッドの最初に紹介した去年に出た論説を読むと落胆する可能性が高い。私は落胆した。
#統計 AICとBICでは推測先のKL情報量が違いますが、どちらもKL情報量が基礎になっています。こういう基本的なことさえ理解していない人にAICやBICの解説をさせてはいけないと思います。
#統計 自由エネルギーF_n = - log p(X_1,…,X_n)はモデルの(周辺)尤度p(X_1,…,X_n)の対数の-1倍なので、モデルの「もっともらしくなさ」の指標ではなく、モデルのデータX_1,…,X_nへの適合の悪さの指標に過ぎない。

尤度は「もっともらしさ」の指標ではなく、データへの適合度の指標に過ぎない。

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with 黒木玄 Gen Kuroki

黒木玄 Gen Kuroki Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @genkuroki

21 Nov
#統計 「尤度」=「モデル内でデータと同じ数値が発生する確率(もしくは確率密度)」はモデルのデータへの適合度の指標に過ぎないので、尤度の意味を「もっともらしさ」と説明するのは誤りだし、周辺尤度を「証拠」と呼ぶのも良くない習慣だと思う。

呼び方と意味を分離できている人には無害。
#統計 likelihoodとかevidenceのような誤解を助長する専門用語はもう廃止不可能なので、「用語の意味を日常的な意味で解釈してはいけない。純粋に数学的な定義に基いて理解できなければダメだ」という方向の教育を徹底して行くしかないように思われる。
#統計

* 「尤度」を「もっともらしさ」だと説明することは、純粋に数学的な定義に基かないのでダメな説明の仕方である。

* 「尤度」=「モデル内でデータと同じ数値が生じる確率もしくは確率密度」は純粋に数学的な定義に基く説明になっている。「尤度」はそれを超える意味を決して持たない。
Read 6 tweets
21 Nov
#統計 「ベイズ統計もいいよ!」と他人に言いたい人達は、Wagenmakers (2007) というP値の使用に反対してベイズをおしているクズ論文が存在して、沢山引用されていることも知っておいた方が良いかも。

replicationindex.com/2018/12/29/wag…

elsur.jpn.org/mt/2016/08/002…
#統計 その予備知識の使用例

>私はWagenmakers (2007)はクズそのものだと思っています。私がベイズ統計の方法を用いていることと、そのようなクズを結びつけるのはやめて頂きたい。

>なるほど、あなたもWagenmakers (2007)はクズだと思っているのですか。それなら安心だ。誤解をお詫びします。
#統計 ベイズ統計に関するクズ言説は心理統計学の世界からよく発信されているように見える。

どうしてこういうことになっちゃうのかね?
Read 26 tweets
20 Nov
#統計 たぶん、

lim_{n→∞}(対数尤度函数)/n = (KL情報量) + (定数)

は赤池弘次さんに由来する見方で、最尤法の開発者のFisherさんは分かっていなかったと思われます↓

ismrepo.ism.ac.jp/index.php?acti…
統計的推論のパラダイムの変遷について

jstage.jst.go.jp/article/butsur…
エントロピーとモデルの尤度
#統計 訂正:上の式は符号が間違っています。正しくは

-lim_{n→∞}(対数尤度函数)/n = (KL情報量) + (定数)

もしくは

lim_{n→∞}(対数尤度函数)/n = (相対エントロピー) + (定数).

大数の法則より i.i.d. X, X_1, X_2, …について

lim (log p(X_1|θ) + … + log p(X_n|θ))/n = E[log p(X|θ)].
#統計 Xが密度函数q(x)を持つなら、

lim (log p(X_1|θ) + … + log p(X_n|θ))/n = ∫q(x) log p(x|θ)dx

とも書ける。

大数の法則が効く速さは q(x) と p(x|θ) に依存するので、有限のnの場合でn→∞の極限がよく近似されていると想定するのは誤り。
Read 9 tweets
18 Nov
#統計 確率測度の意味での「確率」は単に「全体の大きさを1としたときの部分の大きさ」という意味での「割合」という意味でしかなく、「ランダムに起こる現象」の類に当たることを定式化した部分は何もない。

確率測度の概念に確率概念に関する哲学・思想の類を感じるのは誤り。
#統計 非自明なのは、「割合」の概念の数学的定式化に過ぎない確率測度さえあれば、「ランダムに起こる現象」の分析に役に立つ数学的道具を大量生産可能なこと。

大数の法則、中心極限定理、Sanovの定理やCramerの定理などは特に基本的。前者の2つはよく解説されているが、後者の2つはそうではない。
#統計 「確率空間や確率測度の概念によって現代的な確率の概念が確定した」のように、確率概念に関する思想の発展を感じさせる解説はひどくミスリーディング。

「確率測度」は実際には「全体の大きさを1としたときの部分の大きさ」=「割合」の概念の抽象化でしかない。
Read 13 tweets
18 Nov
ヤンデル氏は【気にくわないもの、嫌いなものから黙って距離をとらずにいちいち「嫌いだ」と口に出す人は、誰かに「そうだね、ぼくもだよ」と言ってもらいたい気持ちがある】という自分自身の強い思い込みに寄り添って欲しいのだろうか?

ヤンデル氏自身が自分自身の強い思い込みに気付かないとダメ。
ヤンデル氏関連

かけ算順序問題ではこういう言い方をしていた。
Read 6 tweets
17 Nov
#統計 太古の時代には「AIC vs. BIC」というこれまた不毛な論争があったようですが、現代の我々はそのような不毛な論争は誰の発言であっても「不毛な議論!」の一言で切り捨てて問題ない。

AICとBICはそれぞれ別のKullback-Leibler情報量+定数の推定量とみなされ、別の価値を持っています。
#統計 仮に、AICにはKL情報量を用いた基礎付けはあるが、BICはベイズファクターの近似値なのでKL情報量を用いた基礎付けはない、というような調子で書かれた文献を見たら、質が低い文献であることを見抜かないとダメ。続く
#統計 AICとBICのKullback-Leibler情報量を用いた基礎付けは、最近の人はみんな読んでいるっぽい渡辺澄夫『ベイズ統計の理論と方法』にもしっかり書いてあります。

大小関係を推測したいKullback-Leibler情報量の違いでAICとBICは使い分ければよい。論争は無意味。続く
Read 10 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Too expensive? Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal Become our Patreon

Thank you for your support!

Follow Us on Twitter!