#統計 たぶん、

lim_{n→∞}(対数尤度函数)/n = (KL情報量) + (定数)

は赤池弘次さんに由来する見方で、最尤法の開発者のFisherさんは分かっていなかったと思われます↓

ismrepo.ism.ac.jp/index.php?acti…
統計的推論のパラダイムの変遷について

jstage.jst.go.jp/article/butsur…
エントロピーとモデルの尤度
#統計 訂正:上の式は符号が間違っています。正しくは

-lim_{n→∞}(対数尤度函数)/n = (KL情報量) + (定数)

もしくは

lim_{n→∞}(対数尤度函数)/n = (相対エントロピー) + (定数).

大数の法則より i.i.d. X, X_1, X_2, …について

lim (log p(X_1|θ) + … + log p(X_n|θ))/n = E[log p(X|θ)].
#統計 Xが密度函数q(x)を持つなら、

lim (log p(X_1|θ) + … + log p(X_n|θ))/n = ∫q(x) log p(x|θ)dx

とも書ける。

大数の法則が効く速さは q(x) と p(x|θ) に依存するので、有限のnの場合でn→∞の極限がよく近似されていると想定するのは誤り。
#統計 尤度 p(X_1|θ)…p(X_n|θ) は「もっともらしさ」の指標ではない。モデル p(x|θ) のデータ X_1,…,X_n への適合度の指標でしかない。

p(X_1|θ)…p(X_n|θ) に likelihood と名前を付けた人はひどいことをやらかしてくれたものだと思います。

歴史に残る大迷惑な大失敗。
#統計 統計学用語の likelihood は

* 数学を使用する場合には、単語の日常的な意味で理解しようとしてはいけない。

とか

* 歴史的にどのような経緯でその定義が出てきたかを知っても理解のために役に立たない。場合によっては誤解の原因になる。

ということの実例になっています。
#統計 数学は難しいので、新しい分野の開拓者が最初から正しい考え方をできていることは稀で、長期間に渡る汚い試行錯誤の結果として現在知られているような理解に至っていることが多い。

用語は最初の開拓者が使った不適切に感じられるものがそのまま使われ続けることが多い。

例:likelihood
#統計 「尤度は英語ならlikelihoodであり、日常的にも使われる単語なので分かり易い。尤度と翻訳したのは失敗だった」と言う人達がいるのですが、尤度は日常的な意味での likelihood (もっともらしさ)ではないので、「ゆうど」と読む意味不明の言葉に翻訳されたことはラッキーだったかもしれない。
#統計 尤度は、英語ならlikelihoodであり、「尤もらしさ」を意味し、「ゆうど」と読む、のように思ってしまった人達は結果的にひどく誤解している。

数学用語を単語の日常的な意味で解釈しようとしている段階でひどく間違っている。

「尤度」は「モデルのデータへの適合度」の指標に過ぎない。
#統計 「尤度」(ゆうど)が特に理解し難く、「もっともらしさ」だと思ってしまう人達が大量発生してしまう原因は、教科書などの解説に「もっともらしさ」だと書いてあることである。

このことから、教科書に書いてあることを信用するのはよくないことも分かる。個人的な意見では統計学は特に酷い。

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with 黒木玄 Gen Kuroki

黒木玄 Gen Kuroki Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @genkuroki

21 Nov
#統計 「尤度」=「モデル内でデータと同じ数値が発生する確率(もしくは確率密度)」はモデルのデータへの適合度の指標に過ぎないので、尤度の意味を「もっともらしさ」と説明するのは誤りだし、周辺尤度を「証拠」と呼ぶのも良くない習慣だと思う。

呼び方と意味を分離できている人には無害。
#統計 likelihoodとかevidenceのような誤解を助長する専門用語はもう廃止不可能なので、「用語の意味を日常的な意味で解釈してはいけない。純粋に数学的な定義に基いて理解できなければダメだ」という方向の教育を徹底して行くしかないように思われる。
#統計

* 「尤度」を「もっともらしさ」だと説明することは、純粋に数学的な定義に基かないのでダメな説明の仕方である。

* 「尤度」=「モデル内でデータと同じ数値が生じる確率もしくは確率密度」は純粋に数学的な定義に基く説明になっている。「尤度」はそれを超える意味を決して持たない。
Read 6 tweets
21 Nov
#統計 「ベイズ統計もいいよ!」と他人に言いたい人達は、Wagenmakers (2007) というP値の使用に反対してベイズをおしているクズ論文が存在して、沢山引用されていることも知っておいた方が良いかも。

replicationindex.com/2018/12/29/wag…

elsur.jpn.org/mt/2016/08/002…
#統計 その予備知識の使用例

>私はWagenmakers (2007)はクズそのものだと思っています。私がベイズ統計の方法を用いていることと、そのようなクズを結びつけるのはやめて頂きたい。

>なるほど、あなたもWagenmakers (2007)はクズだと思っているのですか。それなら安心だ。誤解をお詫びします。
#統計 ベイズ統計に関するクズ言説は心理統計学の世界からよく発信されているように見える。

どうしてこういうことになっちゃうのかね?
Read 26 tweets
20 Nov
#統計 添付画像は

ism.ac.jp/editsec/toukei…
情報量規準AICの統計科学に果たしてきた役割
小西 貞則
2019

のp.204より。

この論説は、正直に言って、かなり落胆しながら読んだ。

BICもKL情報量の推定量とみなせるので、添付画像の引用部分は非常に変です。続く Image
#統計 渡辺澄夫『ベイズ統計の理論と方法』に近い記号法で説明します(私のTLではよく読まれている教科書)。

データX_1,X_2,…は未知の分布q(x)のi.i.d.であるとし、分布族p(x|w)と事前分布φ(w)によるベイズ統計について考えます。第2章の正則モデルの設定を仮定。

続く
#統計 モデル内での仮想的なデータの分布は

p(x_1,…,x_n) = ∫p(x_1|w)…p(x_n|w)φ(w)dw

と書け、分析対象のデータの分布は

q(x_1)…q(x_n)

と書ける。これらのKL情報量は

-∫q(x_1)…q(x_n) log p(x_1,…,x_n) dx_1…dx_n
+ (モデルによらない定数)

の形になります。
Read 11 tweets
18 Nov
#統計 確率測度の意味での「確率」は単に「全体の大きさを1としたときの部分の大きさ」という意味での「割合」という意味でしかなく、「ランダムに起こる現象」の類に当たることを定式化した部分は何もない。

確率測度の概念に確率概念に関する哲学・思想の類を感じるのは誤り。
#統計 非自明なのは、「割合」の概念の数学的定式化に過ぎない確率測度さえあれば、「ランダムに起こる現象」の分析に役に立つ数学的道具を大量生産可能なこと。

大数の法則、中心極限定理、Sanovの定理やCramerの定理などは特に基本的。前者の2つはよく解説されているが、後者の2つはそうではない。
#統計 「確率空間や確率測度の概念によって現代的な確率の概念が確定した」のように、確率概念に関する思想の発展を感じさせる解説はひどくミスリーディング。

「確率測度」は実際には「全体の大きさを1としたときの部分の大きさ」=「割合」の概念の抽象化でしかない。
Read 13 tweets
18 Nov
ヤンデル氏は【気にくわないもの、嫌いなものから黙って距離をとらずにいちいち「嫌いだ」と口に出す人は、誰かに「そうだね、ぼくもだよ」と言ってもらいたい気持ちがある】という自分自身の強い思い込みに寄り添って欲しいのだろうか?

ヤンデル氏自身が自分自身の強い思い込みに気付かないとダメ。
ヤンデル氏関連

かけ算順序問題ではこういう言い方をしていた。
Read 6 tweets
17 Nov
#統計 太古の時代には「AIC vs. BIC」というこれまた不毛な論争があったようですが、現代の我々はそのような不毛な論争は誰の発言であっても「不毛な議論!」の一言で切り捨てて問題ない。

AICとBICはそれぞれ別のKullback-Leibler情報量+定数の推定量とみなされ、別の価値を持っています。
#統計 仮に、AICにはKL情報量を用いた基礎付けはあるが、BICはベイズファクターの近似値なのでKL情報量を用いた基礎付けはない、というような調子で書かれた文献を見たら、質が低い文献であることを見抜かないとダメ。続く
#統計 AICとBICのKullback-Leibler情報量を用いた基礎付けは、最近の人はみんな読んでいるっぽい渡辺澄夫『ベイズ統計の理論と方法』にもしっかり書いてあります。

大小関係を推測したいKullback-Leibler情報量の違いでAICとBICは使い分ければよい。論争は無意味。続く
Read 10 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Too expensive? Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal Become our Patreon

Thank you for your support!

Follow Us on Twitter!