#統計 「ベイズ統計もいいよ!」と他人に言いたい人達は、Wagenmakers (2007) というP値の使用に反対してベイズをおしているクズ論文が存在して、沢山引用されていることも知っておいた方が良いかも。

replicationindex.com/2018/12/29/wag…

elsur.jpn.org/mt/2016/08/002…
#統計 その予備知識の使用例

>私はWagenmakers (2007)はクズそのものだと思っています。私がベイズ統計の方法を用いていることと、そのようなクズを結びつけるのはやめて頂きたい。

>なるほど、あなたもWagenmakers (2007)はクズだと思っているのですか。それなら安心だ。誤解をお詫びします。
#統計 ベイズ統計に関するクズ言説は心理統計学の世界からよく発信されているように見える。

どうしてこういうことになっちゃうのかね?
#統計 豊田『瀕死本』にもWagenmakers (2007)と同じような話が書いてある。豊田『瀕死本』でその論文は引用されていましたっけ?

見つけた人がいれば引用しているページの番号を教えて下さい。他の文献でも可。「目grep」する気力はない。

関連スレッド↓
#統計 Wagenmakers (2007)に「BICの差」が出て来るので解説。特に仮説検定との関係を解説しましょう。

簡単のために、1次元パラメータθを持つ確率分布族p(x|θ)における帰無仮説θ=θ₀の検定の場合について考えます。

モデルの正則性などの最尤法が有効になる性質も仮定します。続く

関連スレッド↓
#統計 仮説検定とBICを比較したい。

そこで、データX_1,…,X_nは帰無仮説に対応する確率分布p(x|θ₀)のi.i.d.として生成されていると仮定し、尤度函数

L_n(θ)=p(X_1|θ)…p(X_n|θ)

を最大化するθをθ̂と書きます。
#統計 このとき、分布族p(x|θ)のBICはパラメータ数d=1なので、

BIC₁ = -2 log L_n(θ̂) + log(n)×d = -2 log L_n(θ̂) + log(n)

となり、帰無仮説に対応する分布p(x|θ₀)のBICはパラメータ数が0なので

BIC₀ = -2 log L_n(θ₀)

になります。続く
#統計 これらの差は

BIC₁ - BIC₀ = -2(log L_n(θ̂) - log L_n(θ₀)) + log(n).

BICによるモデル選択は「BICが小さい方を選択すること」によって行われます。

続く
#統計 ゆえに、正しいモデルのBICであるBIC₀の側が大きくなってしまうことは、仮説検定では第一種の過誤が起こることに対応します。この意味で、

第一種の過誤が起こる
⇔ BIC₁ < BIC₀
⇔ 2(log L_n(θ̂) - log L_n(θ₀)) > log(n)

です。続く
#統計 Wilks' theorem より、nが十分大きければ、

2(log L_n(θ̂) - log L_n(θ₀))

は自由度1のカイ分布に近似的によく従うようになります。

そこでc(α)を「自由度1のχ²分布においてc(α)以上になる確率はαになる」という条件で定めておきます。

続く
#統計 nが十分大きいならば、Wilks' theoremによって、有意水準αの検定を

2(log L_n(θ̂) - log L_n(θ₀)) > c(α) ⇔ 帰無仮説を棄却

によって作れます。

有意水準αは第一種の過誤が起こる確率であったことも思い出しておきましょう。
#統計 これとBICによるモデル選択の場合を比較すれば、仮説検定の状況におけるBICによるモデル選択を検定の言葉で理解できる。

BICによって帰無仮説が「棄却」される
⇔ 2(log L_n(θ̂) - log L_n(θ₀)) > log(n)

χ²検定によって帰無仮説が棄却される
⇔ 2(log L_n(θ̂) - log L_n(θ₀)) > c(α)

続く
#統計 要するに「自由度1のχ²分布でc(α)以上になる確率がαになる」という条件で定義されたサンプルサイズnに依存しない定数c(α)を log(n) に置き換えた場合が、χ²検定の状況におけるBICによるモデル選択に一致しているわけです。

続く
#統計 c(α)が大きくなるほど有意水準αは小さくなり、BICでのモデル選択ではc(α)をlog(n)に置き換えたものになっています。

χ²検定の状況におけるBICによるモデル選択はサンプルサイズが大きいほど有意水準を小さくする仮説検定と同じになります!

続く
#統計 BICはベイズ情報量規準と呼ばれており、ベイズ統計における対数周辺尤度の-2倍の近似値になっている。

ダメな人達は「BICを使うと主義が異なるベイズ統計の話になるので、頻度論の仮説検定とは無関係の別の方法になる」と誤解してしまうでしょうが、普通に数学的に考えれば誤解せずにすみます。
#統計 以上のパラメータ数1のモデルと帰無仮説を課したパラメータ数0のモデルの比較において、BICによるモデル選択で第一種の過誤と同じことが起こる確率の近似値は

n=32~64 ⇒ α=6.3%~4.1%
n=512~1024 ⇒ α=1.3%~0.85%
n=16384 ⇒ α=0.18%

のような感じになります。他の場合も同様に計算可能。
#統計 再掲。要するに、χ²検定の状況においては、BICによるモデル選択はサンプルサイズnが大きいほど小さな有意水準を採用した仮説検定と同じになるということです。
#統計 ベイズファクターでもその漸近挙動によってnが大きい場合にはほとんど同じことになります。(BICの差はベイズファクターの対数の2倍の近似値になっています。)

以上によって、χ²検定の状況におけるBICやベイズファクターの使用は有意水準の言葉でも理解可能なことが分かりました。
#統計 有意水準を小さめに取ったときのトレードオフについて、仮説検定ユーザーは当然知っているはずです。nが大きい場合のBICやベイズファクターの使用においても同じトレードオフが発生するわけです。

魔法は存在せず、トレードオフを気にしながら目的に合わせて適切な道具を使うしかない。
#統計 以上の議論において最も本質的な数学はWilks' theoremです。Wilks' theoremについては以下のリンク先スレッドを見てください。

数学的な証明遂行スキルが不十分であっても、具体例の数値的確認を十分に行えば、中心極限定理の場合と同様に十分に実用的な理解が可能だと思います。
#統計 AICについて補足

BICによって帰無仮説が「棄却」される
⇔ 2(log L_n(θ̂) - log L_n(θ₀)) > log(n)

χ²検定によって帰無仮説が棄却される
⇔ 2(log L_n(θ̂) - log L_n(θ₀)) > c(α)

AICによって帰無仮説が「棄却」される
⇔ 2(log L_n(θ̂) - log L_n(θ₀)) > 2
#統計 以上においては p(x|θ) の具体形によらない議論にしてしまいましたが、p(x|θ) = (1/√(2π))exp(-(x-θ)²/2), θ₀=0 の場合の計算の詳細が、渡辺澄夫『ベイズ統計の理論と方法』のpp.80-82にあります。

その部分とこのスレッドを比較すれば具体例の計算の重要性も理解できると思います。
#統計 「ゴールをより厳しめにずらすこと」はBICやベイズファクターを使わない方法でも可能です。豊田『瀕死本』がその手のことをやっていることについては以下のリンク先スレッドを参照。

ゴールをずらしたいなら、ベイズ主義的なデタラメをほざかずに、ゴールをずらすと正直に言えばよい。
#統計

帰無仮説でパラメータ空間の次元がΔd下がる場合:

G = 2(log L_n(θ̂) - log L_n(θ̌))

とおくと、帰無仮説が選択されないための必要十分条件は

BIC: G > log(n)×Δd

χ²検定: G > c(Δd, α)

AIC: G > 2Δd

θ̌は帰無仮説化での最尤法の解で自由度Δdのχ²分布でc(Δd, α)以上になる確率はα.
【心理学は統計学をちゃんと使おうと思っている】の証拠があるなら見てみたい。

「ちゃんと使おう」の中身は何なんだろうか?

もしも「科学っぽい体裁を整えるためにお墨付きを得るための道具として使いたい」ならアウト。

統計学は科学的なお墨付きを得るための道具ではない。
統計学はお墨付きを得るための道具ではない。

ところが、最近出版された某書のテーマは【お墨付き】を得るための統計学の【特権的な機能】について哲学的に語ること。

こういう本や『瀕死本』が出版されてそこそこ売れてしまうこと自体が色々ろくでもないことが起こっていることの証拠になっている。

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with 黒木玄 Gen Kuroki

黒木玄 Gen Kuroki Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @genkuroki

21 Nov
#統計 「尤度」=「モデル内でデータと同じ数値が発生する確率(もしくは確率密度)」はモデルのデータへの適合度の指標に過ぎないので、尤度の意味を「もっともらしさ」と説明するのは誤りだし、周辺尤度を「証拠」と呼ぶのも良くない習慣だと思う。

呼び方と意味を分離できている人には無害。
#統計 likelihoodとかevidenceのような誤解を助長する専門用語はもう廃止不可能なので、「用語の意味を日常的な意味で解釈してはいけない。純粋に数学的な定義に基いて理解できなければダメだ」という方向の教育を徹底して行くしかないように思われる。
#統計

* 「尤度」を「もっともらしさ」だと説明することは、純粋に数学的な定義に基かないのでダメな説明の仕方である。

* 「尤度」=「モデル内でデータと同じ数値が生じる確率もしくは確率密度」は純粋に数学的な定義に基く説明になっている。「尤度」はそれを超える意味を決して持たない。
Read 6 tweets
20 Nov
#統計 添付画像は

ism.ac.jp/editsec/toukei…
情報量規準AICの統計科学に果たしてきた役割
小西 貞則
2019

のp.204より。

この論説は、正直に言って、かなり落胆しながら読んだ。

BICもKL情報量の推定量とみなせるので、添付画像の引用部分は非常に変です。続く Image
#統計 渡辺澄夫『ベイズ統計の理論と方法』に近い記号法で説明します(私のTLではよく読まれている教科書)。

データX_1,X_2,…は未知の分布q(x)のi.i.d.であるとし、分布族p(x|w)と事前分布φ(w)によるベイズ統計について考えます。第2章の正則モデルの設定を仮定。

続く
#統計 モデル内での仮想的なデータの分布は

p(x_1,…,x_n) = ∫p(x_1|w)…p(x_n|w)φ(w)dw

と書け、分析対象のデータの分布は

q(x_1)…q(x_n)

と書ける。これらのKL情報量は

-∫q(x_1)…q(x_n) log p(x_1,…,x_n) dx_1…dx_n
+ (モデルによらない定数)

の形になります。
Read 11 tweets
20 Nov
#統計 たぶん、

lim_{n→∞}(対数尤度函数)/n = (KL情報量) + (定数)

は赤池弘次さんに由来する見方で、最尤法の開発者のFisherさんは分かっていなかったと思われます↓

ismrepo.ism.ac.jp/index.php?acti…
統計的推論のパラダイムの変遷について

jstage.jst.go.jp/article/butsur…
エントロピーとモデルの尤度
#統計 訂正:上の式は符号が間違っています。正しくは

-lim_{n→∞}(対数尤度函数)/n = (KL情報量) + (定数)

もしくは

lim_{n→∞}(対数尤度函数)/n = (相対エントロピー) + (定数).

大数の法則より i.i.d. X, X_1, X_2, …について

lim (log p(X_1|θ) + … + log p(X_n|θ))/n = E[log p(X|θ)].
#統計 Xが密度函数q(x)を持つなら、

lim (log p(X_1|θ) + … + log p(X_n|θ))/n = ∫q(x) log p(x|θ)dx

とも書ける。

大数の法則が効く速さは q(x) と p(x|θ) に依存するので、有限のnの場合でn→∞の極限がよく近似されていると想定するのは誤り。
Read 9 tweets
18 Nov
#統計 確率測度の意味での「確率」は単に「全体の大きさを1としたときの部分の大きさ」という意味での「割合」という意味でしかなく、「ランダムに起こる現象」の類に当たることを定式化した部分は何もない。

確率測度の概念に確率概念に関する哲学・思想の類を感じるのは誤り。
#統計 非自明なのは、「割合」の概念の数学的定式化に過ぎない確率測度さえあれば、「ランダムに起こる現象」の分析に役に立つ数学的道具を大量生産可能なこと。

大数の法則、中心極限定理、Sanovの定理やCramerの定理などは特に基本的。前者の2つはよく解説されているが、後者の2つはそうではない。
#統計 「確率空間や確率測度の概念によって現代的な確率の概念が確定した」のように、確率概念に関する思想の発展を感じさせる解説はひどくミスリーディング。

「確率測度」は実際には「全体の大きさを1としたときの部分の大きさ」=「割合」の概念の抽象化でしかない。
Read 13 tweets
18 Nov
ヤンデル氏は【気にくわないもの、嫌いなものから黙って距離をとらずにいちいち「嫌いだ」と口に出す人は、誰かに「そうだね、ぼくもだよ」と言ってもらいたい気持ちがある】という自分自身の強い思い込みに寄り添って欲しいのだろうか?

ヤンデル氏自身が自分自身の強い思い込みに気付かないとダメ。
ヤンデル氏関連

かけ算順序問題ではこういう言い方をしていた。
Read 6 tweets
17 Nov
#統計 太古の時代には「AIC vs. BIC」というこれまた不毛な論争があったようですが、現代の我々はそのような不毛な論争は誰の発言であっても「不毛な議論!」の一言で切り捨てて問題ない。

AICとBICはそれぞれ別のKullback-Leibler情報量+定数の推定量とみなされ、別の価値を持っています。
#統計 仮に、AICにはKL情報量を用いた基礎付けはあるが、BICはベイズファクターの近似値なのでKL情報量を用いた基礎付けはない、というような調子で書かれた文献を見たら、質が低い文献であることを見抜かないとダメ。続く
#統計 AICとBICのKullback-Leibler情報量を用いた基礎付けは、最近の人はみんな読んでいるっぽい渡辺澄夫『ベイズ統計の理論と方法』にもしっかり書いてあります。

大小関係を推測したいKullback-Leibler情報量の違いでAICとBICは使い分ければよい。論争は無意味。続く
Read 10 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Too expensive? Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal Become our Patreon

Thank you for your support!

Follow Us on Twitter!