#統計 太古の時代には「AIC vs. BIC」というこれまた不毛な論争があったようですが、現代の我々はそのような不毛な論争は誰の発言であっても「不毛な議論!」の一言で切り捨てて問題ない。

AICとBICはそれぞれ別のKullback-Leibler情報量+定数の推定量とみなされ、別の価値を持っています。
#統計 仮に、AICにはKL情報量を用いた基礎付けはあるが、BICはベイズファクターの近似値なのでKL情報量を用いた基礎付けはない、というような調子で書かれた文献を見たら、質が低い文献であることを見抜かないとダメ。続く
#統計 AICとBICのKullback-Leibler情報量を用いた基礎付けは、最近の人はみんな読んでいるっぽい渡辺澄夫『ベイズ統計の理論と方法』にもしっかり書いてあります。

大小関係を推測したいKullback-Leibler情報量の違いでAICとBICは使い分ければよい。論争は無意味。続く
#統計 データX_1,…,X_nが未知の分布q(x)のi.i.d.として生成されているという想定で説明します。

モデルp(x|w)が未知の分布q(x)について適当な条件を満たせばAICとBICは実用的な規準になります。

d個のパラメータをまとめてw=(w_1,…,w_d)と書いているとする。

続く
#統計

対数尤度 L(w) = log p(X_1|w) + … + log p(X_n|w) を最大化するwをw*と書きます。

AIC = -2L(w*) + 2d

は予測分布p(x|w*)の汎化誤差の2n倍

G = -2n∫q(x) log p(x|w*) dx

もしくはそのデータの確率的揺らぎに関する期待値 E[G] の推定量です。

G自身がKL情報量+定数の形をしている。
#統計

BIC = -2L(w*) + (log n)×d

は自由エネルギー

F = -2 log p(X_1,…,X_n)

(ここで p(x_1,…,x_n) := ∫p(x_1|w)…p(x_n|w)φ(w) dw)

の近似値です。自由エネルギー自体はKL情報量(+定数)として意味を持ちません。続く
#統計 しかし、そのデータの確率的揺らぎに関する期待値E[F]はもろにKL情報量(+定数)の形になります:

E[F] = -2∫…∫ q(x_1)…q(x_n) log p(x_1,…,x_n) dx_1…dx_n.

p(x_1,…,x_n)はモデル内でのデータ生成法則の密度函数で、q(x_1)…q(x_n)は推測先の未知のデータ生成法則の密度函数です。続く
#統計 E[F] はモデル内でのデータ生成法則と推測先の未知のデータ生成法則の違いを表すKL情報量(+定数)の形になっています。自由エネルギーFやその近似値のBICはそのE[F]の推定量とみなせます。

AICは予測分布と未知の分布の違いを表すGもしくはその期待値E[G]の推定量。

推定先のKL情報量が違う。
#統計 異なる推定先を持つ推定量について、どちらが優れているかについて考えても、目的によって変わるとしか言いようがない。

太古の時代の「AIC vs. BIC」は現代においては無意味な不毛な論争であり、くだらない話題であったと言い切って問題ないと思います。
#統計 20世紀は統計学において「華々しい論争があった」ことで有名かもしれませんが、私の個人的な意見では、扱っているものの数学的素性を確認した途端に「くだらない不毛な論争で無駄に時間を潰していた」という評価になってしまう場合が大部分だと思います。

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with 黒木玄 Gen Kuroki

黒木玄 Gen Kuroki Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @genkuroki

18 Nov
#統計 確率測度の意味での「確率」は単に「全体の大きさを1としたときの部分の大きさ」という意味での「割合」という意味でしかなく、「ランダムに起こる現象」の類に当たることを定式化した部分は何もない。

確率測度の概念に確率概念に関する哲学・思想の類を感じるのは誤り。
#統計 非自明なのは、「割合」の概念の数学的定式化に過ぎない確率測度さえあれば、「ランダムに起こる現象」の分析に役に立つ数学的道具を大量生産可能なこと。

大数の法則、中心極限定理、Sanovの定理やCramerの定理などは特に基本的。前者の2つはよく解説されているが、後者の2つはそうではない。
#統計 「確率空間や確率測度の概念によって現代的な確率の概念が確定した」のように、確率概念に関する思想の発展を感じさせる解説はひどくミスリーディング。

「確率測度」は実際には「全体の大きさを1としたときの部分の大きさ」=「割合」の概念の抽象化でしかない。
Read 13 tweets
18 Nov
ヤンデル氏は【気にくわないもの、嫌いなものから黙って距離をとらずにいちいち「嫌いだ」と口に出す人は、誰かに「そうだね、ぼくもだよ」と言ってもらいたい気持ちがある】という自分自身の強い思い込みに寄り添って欲しいのだろうか?

ヤンデル氏自身が自分自身の強い思い込みに気付かないとダメ。 Image
ヤンデル氏関連

かけ算順序問題ではこういう言い方をしていた。 Image
Read 6 tweets
17 Nov
計算速度と書き易さを考慮すれば #Julia言語 で書くのが最適。C, C++, Fortran並に速く、圧倒的に楽に習得できる。圧倒的。

数学者側がMathematicaやSagemathを使えるだけのプログラミング能力があるなら、数学者側が #Julia言語 を習得して、自分で書いた方が早いと思います。続く
#Julia言語 でガチで特殊函数(指数積分函数)を実装する実演をやっているのが、MITでの講義の宿題の答えのこれ↓

nbviewer.jupyter.org/github/steveng…

それを最新版のJuliaでも動くようにしたものが

nbviewer.jupyter.org/gist/genkuroki…

のIn[2]にある。続く
#Julia言語

Juliaによる超幾何函数の実装の例が

github.com/JuliaMath/Hype…

にあり、添付画像はソースコードの一部分です。数学関係者なら、Juliaをよく知らなくても、大体何をやっているか分かるはず。

超幾何の例があれば、他の場合については手間の問題でしかない(もちろん結構大変!)。 Image
Read 6 tweets
15 Nov
#統計

「ベイズだとサンプルサイズ設計は必要ない」とか「尤度原理に基くベイズ統計ならp-hackingのような問題は生じない」とか、危険なことを言う人達がいて頭が痛い。

ベイズ統計は魔法じゃない。

そういうおかしなことを言う人達は無視して、尤度函数を地道にプロットして遊ぶ方が有益😊
#統計 仮にデータを生成している真の確率法則が決まっていても、データは確率的に揺らぎます。データが運悪く偏っているリスクが常にある。

データを生成している真の確率法則がないとか決まっていないなら、もっと状況は悪くなる。データが何の情報を拾っているのか自体を明瞭にしないとダメ。
#統計 添付画像は標準正規分布のサイズ10のサンプル(←確率的に揺らぐ)に関する正規分布モデルの尤度函数のプロット。中央のシアンのドットは標準正規分布の平均と標準偏差。

ランダムに生成されたサンプル(データ)ごとに異なる尤度函数が得られる。

gist.github.com/genkuroki/8a5b…
Read 35 tweets
15 Nov
#統計 その引用はページ全体に拡張した方が意図がくみとり易いと思います。

x_1,…,x_nの平均は差の二乗和 Σ (x_i - a)² を最小にするaとして特徴付けられ、中央値(一般に一意に決まらない)は差の絶対値の和 Σ |x_i - a| を最小にするaとして特徴付けられます。

mext.go.jp/content/140707…
#統計 私が、正直、理解できないのは、

【データの分布が非対称形の場合】には【代表値として平均値より中央値のほうが適切】である

という主張。

全体の平均を知りたい場合には平均値を知りたいし、順位的に真ん中の値を知りたい場合には中央値を知りたい(トートロジー)なら理解できるが、~続く
#統計 続き~、【データの分布が非対称形の場合】に【代表値として平均値より中央値のほうが適切】であるという主張は理解できない。

分布の非対称性をどこで使っているの?

中央値には左右の非対称性をケアする機能はありません。
Read 18 tweets
14 Nov
#統計 「伝統的な統計学」について、Fisher's exact testに関わるゴタゴタもウンザリさせられるような事態になっている。

* 2×2の分割表のχ²検定はFisher検定の近似に過ぎないので、可能ならば正確なFisher検定の方を使うべきだ(特に度数が小さい場合には)。

このデタラメを他人に教える人が多過ぎ。
#統計 一応念のためため述べておきますが、私は統計学についてはど素人。

そして、数学に関係した事柄については「教科書に書いてある」とか「査読論文に書いてある」のような事実を正しいことの証拠に挙げる人達を常日頃から「権威に基づいて正しさを判定するろくでもない奴らだ」と言っています。
#統計

⭕️2×2の分割表のχ²検定の方法をサンプルサイズが大きな場合のFisher検定の近似によって導出できる。

という主張は正しいです。しかし、

❌χ²検定はFisher検定の近似としてしか導けない。
❌Fisher検定は正確である。
❌χ²検定の誤差をFisher検定との違いで測るのが正しい。

はどれも誤り。
Read 41 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Too expensive? Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal Become our Patreon

Thank you for your support!

Follow Us on Twitter!