#統計 「停止規則」問題に完全決着

統計的検定では「帰無仮説が棄却されるまで順次データを増やして行く」という停止規則の工夫によって、帰無仮説が正しくても帰無仮説を確率1で棄却できてしまうが、ベイズ統計にはそういう問題はない、という主張が完全に間違っていることを説明します。
#統計 ぶっちゃけ、「統計学では主義が重要だ」という杜撰な言説に頭がおかされてしまっていない普通の統計学ユーザーはこのスレッドを読む必要がありません。

しかし、少なくとも豊田秀樹さんの本でベイズ統計について勉強してしまった人はこのスレッドを読んだ方がよいです。
#統計 このスレッドでは簡単のために以下の場合を扱います。

分散を1に固定した正規分布モデル(パラメータは平均のμのみ)と平坦事前分布でのサイズnのデータから得られる事後分布はデータサイズnとデータの標本平均X̅だけから決まる:

μの事後分布 = 平均X̅分散1/nの正規分布.
#統計 適当な緩い仮定のもとで、データの標本平均は、大数の法則より、データサイズn→∞で真の平均μ₀に収束すると考えてよい。そのとき事後分布の分散も1/n→0となる。

ゆえに、真の値μ₀を含む任意の開区間a<μ<bについて、事後分布で測ったa<μ<bが成立する確率はn→∞で1に収束します。続く
#統計 要するに、事後分布で測った平均μに関する仮説「a<μ<b」が成立する確率は、実際に真の値μ₀がその仮説を満たしていれば、データサイズn→∞で1に収束するということです。

停止規則を工夫しても、その確率が1に収束することを防げません。
#統計 それに対して、平均μに関する帰無仮説「μ=μ₀」の両側検定では、任意に与えられた有意水準α>0について、停止規則を「P値がα未満になるまでデータを順次取得し続ける」に設定することによって、帰無仮説が正しくても、確率1で帰無仮説を棄却できます。
#統計 一時的なまとめ

ベイズ統計では、仮説「a<μ<b」が正しいならば、n→∞で事後分布において仮説「a<μ<b」が成立する確率は1に収束する。

帰無仮説「μ=μ₀」の両側検定では、停止規則を「帰無仮説を棄却できるまでデータを順次取得し続ける」にすれば、n→∞で確率1で帰無仮説を棄却できる。
#統計 さて、この数学的事実から、「ゆえに、統計的検定には停止規則に結果が影響されるという大問題があるので、ベイズ統計の方を使うべきである」と結論するのは正しいでしょうか?

ベイズ統計と統計的検定をフェアに比較できているでしょうか?

答えは、どちらも「いいえ」です。
#統計 「フェアな比較か?」への答えが「いいえ」である理由の1つ目は、扱っている仮説が「a<μ<b」と「μ=μ₀」で違っていることです。

仮説「a<μ<b」のP値を、μ₀をa<μ₀<bの範囲で動かしたときの仮説「μ=μ₀」の通常のP値の上限と定めることによって、仮説「a<μ<b」の両側検定が可能になります。続く
#統計 a,b→μ₀の極限で、仮説「a<μ<b」のP値は仮説「μ=μ₀」のP値に収束します。

この意味で、仮説「a<μ<b」のP値は仮説「μ=μ₀」のP値の拡張になっています。

ただし、a,b→μ₀とサンプルサイズn→∞の2つの極限は交換不可能なことが以下の議論では本質的になるので要注意!数学は大事です。

続く
#統計 1点に関する仮説「μ=μ₀」の検定を幅を持たせた仮説「a<μ<b」の検定に拡張できることを知っていれば、「帰無仮説μ=μ₀がぴったり現実に成立している可能性はないと考えられるので、仮説検定はナンセンス」という主張は無知に基く難癖に過ぎないことも分かります。

無知に基く難癖が出回り過ぎ。
#統計 仮説「a<μ<b」が正しいならば、n→∞で仮説「a<μ<b」のP値は1に収束します。

これはベイズ統計において、仮説「a<μ<b」が正しいならば、n→∞で、事後分布において仮説「a<μ<b」が成立する確率が1に収束することの類似になっています。

この類似に触れない比較はアンフェアです。
#統計 仮説「μ=μ₀」のP値は平均μ₀分散1の正規分布のサイズnの標本分布における標本平均X̅の分布を使って計算されます(任意の教科書を参照):

標本平均X̅の分布 = 平均μ₀分散1/nの正規分布.

大数の法則からn→∞でX̅→∞が正規分布標本以外でも成立する。続く
#統計 そのことから、真の平均μ₀についてa<μ₀<bが成立しているならば、nを十分大きくすれば標本平均X̅についてもa<X̅<bとなり、仮説「a<μ<b」のP値は1になります。

幅を持たせた仮説「a<μ<b」と1点のみの仮説「μ=μ₀」ではこのように様子が違っています。続く
#統計 「フェアな比較か?」への答えが「いいえ」である理由の2つ目は、仮説「μ=μ₀」の検定にちょうど対応することを、ベイズ統計の方で信用区間(確信区間、ベイズ版信頼区間)を使ってやってみると、検定の場合と同様にn→∞での結果が停止規則に依存するようになることです。
#統計 ベイズ統計でも検定の場合と同様に停止規則の「工夫」による不正行為が可能であることに触れない比較はアンフェアです。
#統計 検定の解説者は「帰無仮説が棄却されるまで順次データを増やし続けるのは不正行為」と言う。

しかし、主観主義ベイジアン達は「ベイズ統計ならば順次データを取得して行っても問題ない」と言う傾向が強い。実際にはベイズ統計でも不正行為が可能なのでひどく有害な発言です。続く
#統計 有意水準5%の検定で、帰無仮説「μ=μ₀」が棄却されることと、μの95%信頼区間にμ₀が含まれなくなることは同値です。

これのベイズ統計版は、事後分布から得られるμの95%信用区間(ベイズ版信頼区間)にμ₀が含まれるか否かを見ること。

フェアであるためにはこの2つを比較する必要があります。
#統計 ところが、分散固定の正規分布モデル+平坦事前分布の場合には、通常の信頼区間とベイズ版の信用区間は完全に等しい!

だから、ベイズ統計で事後分布から得られるμの95%信用区間(ベイズ版信頼区間)にμ₀が含まれるか否かを見ることは、「μ=μ₀」の仮説検定と完全に同じことになります。
#統計 一般には、通常の信頼区間とベイズ版信用区間はぴったりは一致しないのですが、適当な緩い条件(正則性は仮定)のもとでは、n→∞で漸近的に一致します。

そのような場合にn→∞での「違い」を語ることには意味がありません。
#統計 要するに、ベイズ版信用区間を使えば、統計的検定における「有意差が出るまで順序データを増やして行く」という不正行為と同じことを、ベイズ統計でもできます。

ベイズ統計の解説者も、ベイズ統計でも停止規則の工夫によって不正行為が可能であることを強調しないとダメです。
#統計 そもそも、正則モデルの場合にはデータサイズn→∞での漸近挙動はベイズ統計と最尤法で同じになり、「μ=μ₀」型の検定の漸近挙動は最尤法の漸近挙動から得られます。

だから、その場合には「n→∞での挙動がベイズ統計では違う」などと言っちゃいけないのです。
#統計 もっとおおらかに、こうすればよい。

* 正則モデルの場合には、データサイズnを仮に十分大きくできるなら、ベイズ統計であろうがなかろうが同じ。

* 既存の主義ではなく、自分自身の目的に合わせて、検定、最尤法、MAP法、ベイズ法などなどの素晴らしい道具を適切に使えば良いだけの話だよね。
#統計 #Julia言語

サンプルを生成している分布の平均μ₀が a<μ₀+x<b を満たしていれば、仮説 a<μ+x+b のP値が1に収束することを示す動画

μ₀ = 0.0
a = -0.1
b = 0.2

の場合

-0.1<x<0.2 でP値が1に収束している。

ソースコード
nbviewer.jupyter.org/gist/genkuroki…
#統計 #Julia言語

区間 a < x < b でP値が1に収束してくれるのですが、そこから外れると、P値函数が確率的にふらふらと左右に揺れてしまうせいで、容易に0に近い値になってしまいます。

1に収束する区間の幅が0だとその「ふらふら」のおかげで「停止規則」による不正が可能になるという仕組みです。
#統計 #Julia言語 通常の仮説 μ+x=0 のP値の動画

仮説 μ+x=0 のP値函数はとんがり頭の形になります。

仮説 a<μ+x<b のP値函数は頭のてっぺんが値1で平ら。

サンプルの中身を増やして行くと、幅が狭くなりつつ、左右にふらふらします。

その「ふらふら」を悪用できれば不正が可能になる(ニヤッ)😏
#統計 大昔にSavageさん達が主観主義ベイジアンの勢力を伸ばすために「尤度原理」を悪用すれば堂々と不正をできることを利用したのですが、そういうくだらない話は忘れて、

 事後分布やP値函数のn→∞での挙動を調べる

という話にすれば、十分に楽しく生産的な話題になる可能性があります。
低レベルでくだらないことを言われても、常に「結局のところ数学的にはどうなっているのだろうか?」と考えて、心と手およびコンピュータで計算して楽しむことができれば、精神的にダークサイドに落ちずに済みます。

コンピュータで計算するなら動画を作ると楽しいです。

百聞は一見に如かず。
#統計 答え: 検定でもベイズ統計でも、使い方によって、「欲しい結果が得られるまでデータを順次取得し続ける」という方法による不正行為が可能になったり、ならなかったりする。

検定の解説者は不正行為が可能なことを警告して来た。

しかし、主観主義ベイジアンは不正行為を実質的に推奨して来た。

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with 黒木玄 Gen Kuroki

黒木玄 Gen Kuroki Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @genkuroki

2 Jan
#統計 「別に話題」→「別の話題」

以下のような教え方は、算数で「はじき」「くもわ」を教えるようなもので非常にまずい。

* 信頼区間の計算法を暗記させる。
* P値の計算法を暗記させる。
* それらの関係についてまともに説明しない。
* 理解抜きの練習を繰り返し行わせる。
#統計 「区間推定はこのやり方でやりなさい」「検定はこの方法で行います」「意味が分からないかもしれませんが、計算の練習をしましょう」という教わり方だと、検定と区間推定で共通して出て来るP値函数のような基本的な数学的道具に触れる機会は奪われて、道具を自由に使うことも不可能になる。
#統計 そして、「理解を促すため」と称して、「推定と検定では意味や思想が違います」のように教わってしまうと、統一的に理解可能な道具達を互いに異なる意味と思想を持つ無関係のものだと思い込むことを強化してしまいます。

これ、最悪。
Read 6 tweets
2 Jan
#統計 統計学入門の教科書で、推定と検定を無関係の別の話であるかのように説明しているのはよくない。

昔からある雑な考え方で統計学を分類して、道具の利用の仕方の自由をユーザー側から奪うことにならないような注意が必要だと思う。

特に、P値と信頼区間は表裏一体で別に話題にはならない。
#統計 P値の定義は大雑把に「データの数値以上の偏りがモデル内で生じる確率」です。近似値や上限を取る変種もある。

モデルがパラメータθを持っている場合には、「P値がα以上になるθの範囲」として信頼度1-αの信頼区間が定義されます。

P値と信頼区間はまさに表裏一体です。
#統計 これを知っていれば、αが有意水準のとき、信頼度1-αの信頼区間の定義が「検定で棄却されないモデルのパラメータθの範囲」に一致することもわかり、信頼区間の解釈は検定における「棄却」の意味に帰着し、信頼区間を誤解し難くなると思います。

検定と区間推定は密接に関係しています。
Read 32 tweets
1 Jan
堀茂樹さんにあきれたので記録に残しておく。

堀さんの政治的発言は小沢一郎さん個人への強力なサポーターとしての発言であるように見えることがあり、そういう場合には尊敬もできないし、信用もできない。

あと「新自由主義」のような用語を使う枠組みで考えることの「優先」もやめられない。 ImageImageImage
そうそう。

その件では私も堀茂樹さんにブロックされることになりました。

積分定数さんは誰もが思うような疑問を堀さんにぶつけただけ。

日本が一般市民も殺す側にまわるかもしれないことについての質問なのだから徹底的に答えてくれないと困る話題でした。
「新自由主義的政策には反対」とどうしても言いたいなら、

「新自由主義的なお金のばらまき方には反対だ。しかし、この緊急時には国民全体にお金を配る政策を今すぐにでもやるべきだ」

とか言えないものなんですかね?

お金を配る先を選んでいるうちに死ななくて良い人達が死んじゃうよ。
Read 4 tweets
1 Jan
#統計 多分「主観ベイズ主義が批判されているのは、主観という怪しげなものを持ち込むからだ」と思っている人は多いと思いますが、実際にはそういう生易しい話題ではないです。

主観主義ベイジアン達が不正行為を正当化しようとしているように見えるという大問題があります。
#統計 ど素人の私が「主観主義ベイジアン達が不正行為を正当化しようとしているように見える」と言っても、信用してもらえないかもしれないので、統計学の哲学者のMayoさんのブログ記事にリンクをはっておきます。

誰が不正を許されているのか?(答え:ベイジアン達)
errorstatistics.com/2014/04/05/who… Image
#統計 検定の場合には「帰無仮説が棄却されるまでデータを順次取得し続けること」のよって確率1で帰無仮説を棄却できる場合(帰無仮説μ=μ₀)とそうでない場合(帰無仮説a<μ<b)がある。

そして検定の解説者は「帰無仮説が棄却されるまでデータを順次取得し続けることは不正行為!」と言ってくれる。
Read 18 tweets
1 Jan
#統計 停止規則の工夫で帰無仮説「μ=μ₀」を確率1で棄却できてしまう理由は「μ=μ₀という条件が厳しすぎるから」と考えることができれば、「条件をa<μ<bの型に緩めたらどうなるか?」と考えることができるようになるはずです。
#統計 統計学入門の教科書では「a<μ<b」型の帰無仮説は扱われていません。しかし、片側検定については大抵書いてあり、片側検定は「μ≥a」や「μ≤b」の様な仮説に検定とみなされるので、その場合をきちんと考察すれば「a<μ<b」の場合も理解できます。

カンニングしたいなら↓
google.com/search?q=lehma…
#統計 「表の出る確率はぴったり1/2である」という帰無仮説が現実に成立しているはずがないので検定はナンセンスだ、というようなクレームは、帰無仮説を「表の出る確率は1/2±εの間になる」の様に緩められて、ε→0とできることを知っていれば、無知に基く難癖に過ぎないことが分かります。
Read 5 tweets
31 Dec 20
#統計 私はこのブログ記事が好きで、これを読んで、

岩沢宏和(2014)『世界を変えた確率と統計のからくり134話』
amazon.co.jp/dp/4797376023

を注文しました。

Fisherの紅茶実験は実話なのか? - Tarotanのブログ tarotan.hatenablog.com/entry/2020/07/…
#統計

tarotan.hatenablog.com/entry/2020/07/…
【Fisher(1935a)の紅茶実験は~<ある1つの実験の有意性検定で有意になったからといって,常識的に考えて,我々の紅茶論争は終わらないでしょ.科学での議論も,紅茶論争と同じですよ>ということを伝えるための例になっている,と私は思います】

の部分が最高!
#統計 FisherさんやNeyman-Pearsonさん達の「検定」に関する意見は、通常の科学的常識と比較すると極端で非常識に聞こえるような言説に書き換えられて広められているという印象を私は持っているので、1つ前のツイートに引用したようなことを言ってくれる人がいるのはとてもうれしいです。
Read 4 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Too expensive? Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal Become our Patreon

Thank you for your support!

Follow Us on Twitter!