Post

黒木玄 Gen Kuroki

@genkuroki

Nov 28, 2020 • 119 tweets • 33 min read • Read on X

#統計

2×2の分割表の独立性のFisher検定の不正確さについて

2×2の分割表の独立性のFisher検定はFisher's exact testと呼ばれているのですが、現実的な研究計画のもとでは(補正無しの)χ²検定より不正確になり易いです。

「不正確さ」の定義と「その理由」について理解していない人が非常に多い。続く

#統計 2×2の分割表とは非負の整数a,b,c,dで構成された表

a b
c d

のことです。ただし、(a,b,c,d)は何らかの確率分布に従ってランダムに生成されたと考えます。

よく例に出されるのは、a+cは調べた喫煙者の数、b+dは非喫煙者の数、a+bは肺癌になった人数、c+dはならなかった人数です。続く

#統計続き。独立性検定は、喫煙と肺癌の例では、喫煙と肺癌が無関係であるという仮説に関する検定になります。a,b,c,dの期待値をそれぞれA,B,C,Dと書くとき、独立性の仮説は A:C=B:D という式で書けます。その条件は喫煙と肺癌の例では

喫煙者が肺癌になる確率 = 非喫煙者が肺癌になる確率

と同値。

#統計よく使われているのはFisher検定です。

Fisher検定では、a+b, c+d, a+c, b+d がすべてデータと同じ値に固定されていてかつ独立性が成立しているという仮定のもとではデータ以上の偏りが生じる確率を正確に計算して、その値をP値として採用します。

続く

#統計すなわち、Fisher検定でのP値は独立性の仮説の下で以下の様に計算される。

①2×2の分割表

a b
c d

の分布をa+b, c+d, a+c, b+dがデータと同じ値になる場合に制限した条件付き確率分布を考える。

②その条件付き確率分布においてデータ以上の偏りが生じる確率を正確に計算する。続く

#統計調査対象の喫煙者と非喫煙者の人数を固定したままで、肺癌になる人とならない人を固定することは不可能なので、実際に得られる2×2の分割表のa+b, c+d, a+c, b+dをすべて固定することは不可能です。

だから想定するモデルの確率分布としてそれら全てを固定したものは採用できません。続く

#統計通常の現実的な研究計画では、2×2の分割表のa+b, c+d, a+c, b+dのすべてを固定することは不可能なので、そうでない確率分布をモデルとして考えて、統計分析を行わざるを得ません。

それにも関わらず、Fisher検定ではa+b, c+d, a+c, b+dをすべて固定してしまうので、「これは何だ？」と〜続く

#統計続き～疑問に思う必要がある。

この点に疑問を持ったことがない人はFisher検定の仕組みを理解していないので、知識的にはFisher検定を使う資格がないと思います。

Fisher検定における第一種の過誤が起こる確率の制御は条件付き確率分布によって説明できます。これが最重要ポイント！続く

#統計独立性の仮説の下のもとで

P(Fisher検定のP値<α)
= Σ P(a+b,c+d,a+cが分割表Xと同じになる確率)×P(その条件のもとで分割表X以上の偏りが生じる確率<α)
≤ Σ P(a+b,c+d,a+cが分割表Xと同じになる確率)×α
= α

なので、有意水準αで第一種の過誤が起こる確率をα以下になります。続く

#統計上で、Σはモデルの確率分布で生成される分割表X全体に関する和で、P( )はモデル内での確率を意味しています。

a+b,c+d,a+cを固定することによって得られるすべての条件付き確率分布内で、第一種の過誤が起こる確率がα以下になっていれば、もとの条件を付けていない確率分布でもそうなる。続く

#統計これが、所謂 conditional test によって第一種の過誤が起こる確率を制御できる数学的な仕組みです。

条件付き確率分布が神！

条件付き確率分布に触れていない説明はどれも不完全な説明なので騙されないようにして下さい。

繰り返します。

条件付き確率分布が神！

#統計以上の方法とは別に、条件付き確率分布に移ることなく、もとの確率分布全体をそのまま利用する代わりに(一般に多変量)正規分布による近似定理(=中心極限定理)を使う検定法もあります。

2×2の分割表の独立性については(Pearsonの)χ²検定が基本的です。続く

https://twitter.com/genkuroki/status/1325757353250095105

#統計 2×2の分割表の独立性のχ²検定に限らず、非常に沢山あるχ²検定全体の基礎は最尤法におけるWilks' theoremです。詳しくは以下のリンク先スレッドを参照。

χ²検定における自由度の一般的な理解にはWilks' theoremが必須です。

https://twitter.com/genkuroki/status/1325757353250095105

#統計たぶん、以上のような数学的一般論について来るのは大変だと思います。

しかし、コンピュータで具体的な数値実験をしていてかつ、ソースコードも全公開している場合であればついて来れる人が増えると思う。

過去に何度も実演していることを今回もやってみました。続く

#統計添付画像は、分割表

a b
c d

のサンプルにおけるa,b,c,dをそれぞれ期待値16,24,24,36のPoisson分布達で生成したときに、Fisher検定とχ²検定のP値がα未満になる確率(第一種の過誤が起こる確率)をプロットしたものです。続く

gist.github.com/genkuroki/74c1…

#統計有意水準αで第一種の過誤が起こる確率はαに近い方が「より正確な検定」だと考えられます。本当は検出力を見るべきなのですが、以前やったので今回は省略させて下さい。

添付画像を見れば分かるように、Fisher検定は平均サンプルサイズ100であってもχ²検定と比較するとひどく不正確です。続く

#統計条件付き確率分布に移ってからP値を正確に計算するトリックによって、Fisher検定では、第一種の過誤が起こる確率を確実に名目有意水準α以下にできます。

χ²検定ではそうなっていないのですが、第一種の過誤が起こる確率は名目有意水準αにほぼ等しくなっている。

続く

#統計期待サンプルサイズ100であるにもかかわらず、Fisher検定の側がどうしてこんなにも不正確なのか？その理由は何か？

不正確さは2つの段階で生じます。

①条件付き確率分布への移行

②条件付き確率分布の有限離散性が原因で第一種の過誤が起こる確率が名目有意水準αより小さくなること

続く

#統計 ②の有限離散性が原因で生じる「誤差」は原理的に防ぎ得ないものです。

だから、そこだけにしか注目できない人は、Fisher検定の不正確さの指摘を「不当なクレーム」のように感じる可能性があります。

おそらくそういう人はFisher検定の基礎が条件付き確率分布であることを理解していない。続く

#統計添付画像は、条件付き確率分布の1つに移ったときの、Fisher検定とχ²検定で第一種の過誤が起こる確率のプロット。

Fisher検定のそれは理想である45度線に下から接しています。

それに対して、χ²検定のそれは、ギザギザが荒くなっているだけではなく、45度線をオーバーシュートしている。続く

#統計条件付き確率分布の1つに移ったときの第一種の過誤が起こる確率のみに注目した人が、「χ²検定はひどく不正確なので、可能ならばFisher検定を使うべきだ」と言いたくなるのは仕方がないと思う。

しかし、その人はおそらく条件付き確率分布に移っていることを認識できていない。ダメすぎ！続く

#統計現実の研究においては分割表

a b
c d

における縦と横の和のすべてを固定できておらず、実際には予算とその消化の都合である期間内で予算の範囲で得られる事例を集めたものが分割表のデータになりがちだと思う。現実にはサンプルサイズa+b+c+dさえ固定されていない可能性が高い。続く

#統計 a+b, c+d, a+c, b+d を固定した確率分布への移行は数学的に条件付き確率分布を考えていることになるので、「条件付き確率分布に移る前の元の確率分布でどうなっているか」を常に考えないといけません。

そこをサボっているから、Fisher検定についてまともな理解が不可能になるのです。

#統計大学入試でも条件付き確率は定番で、それに適当な確率をかけて和を取って元の確率分布に戻るというような計算で解ける問題も出されていると思う。

その手の問題をパターンマッチで解けるようになった人達は数学的なレベルが低く、Fisher検定の理解が困難になる可能性がある。理解は重要です。

#統計実際に、条件付き確率の適切に足し上げによって元の確率分布に戻る計算を実行すると、Fisher検定の第一種過誤の確率はαより小さな値の荷重平均の計算によって誤差が大きいままになってしまうが、χ²検定の側は上下への逸脱が足し上げで均されて誤差が小さくなることを確認できます。

https://twitter.com/genkuroki/status/1197951486191230976

#統計期待値が

1 2
2 4

の場合にFisher検定で使用される条件付き確率分布=超幾何分布における確率を足し上げる計算の動画が以下のリンク先スレッドにあります。

均されいく様子が見えます。

https://twitter.com/genkuroki/status/1197951486191230976

#統計 Fisher検定の第一種の過誤の確率は超幾何分布モデルにおいて45度線に下から接し、有限離散性の分だけ、45度線より小さくなります。

45度線より小さな値の荷重平均なので、足し上げるときにプラスとマイナスが均されることはなく、計算結果は45度線よりずっと下になることになります。

#統計 Fisher検定では、超幾何分布という条件付き確率分布に移った時点で、元の確率分布では生成可能だった分割表の大部分が失われ、その分だけ有限離散性が強くなり、有限離散分布で必然的に生じる「仕方がない問題」もその分だけ悪化しており、それを足し上げても悪影響は均されない。

#統計それに対して、χ²検定の側は、有限離散性の問題が悪化する条件付き確率分布に移ることなく、元の確率分布の全体を視野に入れた上での多変量正規分布近似を使っているので、結果的にFisher検定よりも小さな誤差で済んでいるわけです。

#統計分割表

a b
c d

におけるa+b, c+d, a+c, b+dの固定を、条件付き確率分布の言葉で正確に理解できれば、Fisher検定の仕組みと利点と欠点を正確に理解できるようになります。

そうなっていれば、誤差は大きいが、確実に第一種の過誤の確率を下げられる利点を適切な場面で活かすことができます。

#統計 Fisher検定の利点は正確であることではないです(実際にはひどく不正確な検定です)。

そして、χ²検定を正確なFisher検定の近似とみなすのも誤りです(実際には多くの場合に補正無しのχ²検定の方が相対的に正確)。

どちらも一長一短なので理解して使い分けるのが正解です。

#統計このスレッドの内容を理解して、その正しさを自分で行ったコンピュータによる計算で確認した人は、大学での講義や多くの教科書にひどく間違った解説が書いてあり、論文の査読も間違った考え方のもとで行われていることを理解できると思います。

統計学はそういう話題の宝庫だと思う。

#統計「Fisher検定は本当は正確ではないよ」のような話は既存の出版物(査読論文を含む)にずっと前から出ています。新規性ゼロ。私のツイートのどこかで紹介してあったはず。

それにも関わらず、態度を変えない人達が統計学を使っているわけです。おそらく、論文の査読もそういう態度で行なっている。

https://twitter.com/genkuroki/status/1214486067115511808

#統計 χ²検定とFisher検定の検出力の動画が以下のリンク先にあります。

Pearson's χ²が通常のχ²検定で、F minlikが通常のFisher検定です。

パワーはかなりの部分で一致しているのですが、χ²検定のパワーの方が強くなる場合があります。

https://twitter.com/genkuroki/status/1214486067115511808

https://twitter.com/genkuroki/status/1193379501071159296

#統計

分割表の統計学において、誤りを指摘されてもノーダメージな世界が存在することは、以下のリンク先で紹介してあります。

https://twitter.com/genkuroki/status/1193379501071159296

#統計以上では、補正無しのχ²検定のみを扱いました。

所謂「Yatesの連続性補正」は相対的に正確なχ²検定をFisher検定よりも不正確にする補正なので一切使用しない方が良いです。

Rのchisq.testではデフォルトで補正がかかるので要注意です。
Rのようなメジャーなソフトでこんな感じでひどい。

https://twitter.com/genkuroki/status/1316286910961078272

#統計ついでに述べておくと、Rのfisher.testで表示されるp値と信頼区間の間には整合性がありません。

p値と信頼区間は同一のp値函数の別の要約の仕方に過ぎないのですが、そういう数学的理解をすっとばしてコードを書いているせいでそういうことになってしまっている。

https://twitter.com/genkuroki/status/1316286910961078272

https://twitter.com/genkuroki/status/1332560692281372674

#統計以下のリンク先はこういう感じのこと。

①の場合は確率0.6で起こり、①の場合に量Pがα未満になる条件付き確率はα以下。

②の場合は確率0.4で起こり、②の場合に量Pがα未満になる条件付き確率はα以下。

両方合わせると、量Pがα未満になる確率は常にα以下になることが分かる。当たり前の話。

https://twitter.com/genkuroki/status/1332560692281372674

https://twitter.com/genkuroki/status/1332592404805816321

#統計

一般にP値函数pval(θ, D)はモデルのパタメータθとデータDの函数になるのですが、データDと有意水準αが与えられたとき、

(帰無仮説θ=θ₀のP値) = pval(θ₀, D)
(信頼区間) = (pval(θ, D) ≥ α となるパラメータθの範囲)

なので、これらは同一のP値函数の別の要約の仕方になっています。

https://twitter.com/genkuroki/status/1332592404805816321

#統計多くの統計学の教科書ではなぜか仮説検定について説明する前に、区間推定について説明するという構成になっています。

結果的にP値と信頼区間が同一のP値函数の別の要約の仕方に過ぎないという事実には一切触れずに終わることになる。

そして、信頼区間に関する説明は大抵の場合非論理的。

#統計有意水準がαのとき、信頼区間が

モデルM(θ)のデータDに関するP値 ≥ α となるパラメータθの範囲
= 検定で棄却されないモデルのパラメータθの範囲

であることを知っていれば、信頼区間の意味は明瞭で解釈に悩むことは無くなります。

https://twitter.com/genkuroki/status/1332565513818361856

#統計このスレッドの以下のリンク先で扱ったFisher検定の性質と同様の話は二項検定にもあります。

添付画像は、サンプルサイズnが固定されておらず、nの期待値が100の場合に、帰無仮説p=0.4の(n一定の制限で条件付き確率分布に移っての)二項検定の場合のプロット。続く

gist.github.com/genkuroki/74c1…

https://twitter.com/genkuroki/status/1332565513818361856

#統計条件付き確率分布内での正確な確率の計算を使う二項検定の側の第一種の過誤の確率は理想的な45度線から離れてしまっていますが、正規分布近似を使った検定の方はほぼぴったり45度線にのっています。

予算と期間を決めて得たデータの検定ではこれはかなり現実みのあるグラフだと思います。

#統計データに合わせた条件付き確率分布に移ってから確率を正確に計算しても、有限離散性を悪化させた後の正確な計算に過ぎず、実効的な確率はその荷重平均になるので、どうしても誤差を小さくするのが難しくなります。

添付画像：条件付き確率分布に移ると正規分布近似の粗が目立つ。

#統計現実には、データが無作為抽出になっているという仮定自体も疑わしい場合が多いので、扱っている対象に詳しい人が使える情報をすべて利用して総合的に判断するしかないということになりがちなので、このスレッドで述べたようなことは相対的に小さな問題の場合は多いと思う。

#統計しかし、実戦状態で「相対的に小さな問題だ」と判断できるためには、このスレッドで見せた場合及び他の多数の場合の数値実験の結果を知っていて相場感覚を身に付けておいた方が安全だという程度のことであれば言ってもよいと思う。

特に数学的道具の利用では道具の性質を知っておくことは大事。

#統計どんぶり勘定で感じを掴んで自分自身の専門知識と直観を活用したい、という欲求はどの分野でもあると思うのですが、実践の場において、すでに広まってしまった合理性のないルール(例：2×2の分割表でのCochranルールは不合理)に負けないためには、道具の性質を知っていることが重要。

#統計本当は合理性のないルールを次世代に伝えないようにすることが理想なのですが、誤りがすでに指摘済みでもノーダメージの無敵な人達がいるので現実には無理。

チョー算数の世界と似たような感じでこじれてしまっているように思う。

ベイズ統計を「主義」で解釈するアホを消し去るのも無理。

#統計ノーダメージの無敵な人達がいるだけではなく、統計学が現実の論文の査読で【お墨付き】を得るための道具になってしまっているので、こじれ方が何重にもなっていると思う。

#統計条件付き確率分布を使って第一種の過誤の確率を上からおさえる検定では、その条件付き確率分布が有限離散分布ならばそのことが原因で第一種の過誤の確率が名目有意水準よりずっと小さくなり、その荷重平均として得られる元の分布での第一種の過誤が起こる確率も無用に小さくなる。

#統計続き。条件付き確率分布を考える元の分布で生成される値(例えば分割表)が、一般に条件付き確率分布では生成されなくなるので、その分だけ条件付き確率分布の側では分布の有限離散性が原因の問題が悪化する。

#統計分割表の独立性検定は、所謂nuisance parameters(局外パラメータ、うざいパラメータ(笑))が残る場合で、Wilks' theoremの典型的な応用先になっている。

別の言い方をすると、分割表の独立性検定は、帰無仮説の表現になっているモデルに1つ以上の不定パラメータが残る場合になっています。

#統計 P値の定義は「帰無仮説の表現になっているモデル内でデータ以上の偏りが生じる確率」なのですが、帰無仮説の表現になっているモデルに不定パラメータが1つ以上残ってしまうと、モデル内確率分布が一意的に決まらないので、モデル内確率も一意的に決まらないことになります。続く

#統計続き。その問題を解決する処方箋の1つが「データに合わせて適切なモデル内条件付き確率分布を考えて、その条件付き確率分布に不定パラメータが残らなければ、確率が一意に確定する」です。分割表のFisher検定はまさにこの処方箋に従って作られた検定法です。

#統計その処方箋に従わずに、適切な偏りの指標を見付けて、帰無仮説のモデルに残る不定パラメータ(nuisance parameters)に「データ以上の偏りが生じる確率」がよらないようにすることができる場合もあります。その典型例が、正規分布モデルにおけるt検定です。

これは滅茶苦茶賢い方法です。

#統計ややこしい検定法がややこしくなっている理由の1つが、「帰無仮説のモデルに1つ以上の不定パラメータが残るので、帰無仮説に対応する確率分布が一意的に決まらない」という問題を解決しなければいけないことです。

この辺の一般的事情を認識できないように統計学入門の教科書は書かれています。

#統計帰無仮説のモデルにパラメータが1つ以上残る場合の例。

(1) 正規分布モデルのパラメータは平均μと分散σ²の2つ。帰無仮説がμ=μ₀ならば、帰無仮説のモデルに不定パラメータσ²が残される。

続く

#統計 (2) 2×2の分割表の4つのPoisson分布の直積モデルでは4つの成分の期待値がモデルのパラメータになる。独立性の帰無仮説は「その4成分の期待値のオッズ比が1になる」という条件になる。その条件を課すとパラメータ空間の次元は4から3に1つ下がる。帰無仮説のモデルには3次元分のパラメータが残る。

#統計 (3) 2つの群が独立な2つの正規分布に従うというモデルは2つの正規分布の分の4つのパラメータを持つ。帰無仮説が「2つの群の平均が等しい」ならばパラメータ空間の次元は4から3に1つ減る。

#統計 (4) r×cの分割表が独立なrc個のPoisson分布で生成されているというモデルのパラメータはrc個の成分の期待値達で、パラメータ空間の次元はrcになる。独立性の帰無仮説でパラメータ空間の次元は r+c-1 (縦横の和で独立なものの個数)に下がる。下がった次元は rc-(r+c-1)=(r-1)(c-1) になる。

#統計以上のように「1つ以上のパラメータを持つ確率分布族をモデルとみなしたとき、帰無仮説がそのモデル内パラメータにある制限を課すことで表現される」というパターンは仮説検定の設定の基本パターンになっています。

そのような場合に最も基本的なのがWilks' theoremです。続く

#統計 Wilks' theoremは、帰無仮説のモデルに不定パラメータが残っていても、適切に偏りの指標となる統計量を定義すると、サンプルサイズn→∞でその指標が従う分布が帰無仮説下でモデルの不定パラメータによらないχ²分布になるという主張です。

局外パラメータの問題はn→∞でならこれで解決可能。

#統計パラメータを減らしたモデル(仮説検定では帰無仮説)と元のモデルのどちらがもっともらしいかを判定したいことはよくあり、Wilks' theoremはその判定に普遍的な処方箋(χ²検定)を与えます。

ここまで来れば赤池情報規準(AIC)にあと1歩だけになります！

#統計 AICのベイズ統計版のWAICについては渡辺澄夫『ベイズ統計の理論と方法』を参照。AICを使える状況ではn→∞でWAICとAICは同じモデル選択を与える。

このようにして、仮説検定→Wilks' theorem→AIC→WAICという道をたどれば、仮説検定からベイズ統計まで統一的な理解が可能になります。

#統計このスレッドですでに述べたように、信頼区間は仮説検定のP値と表裏一体(同一のP値函数の別の要約)であり、仮説検定はWilks' theorem経由でAICやWAICのような情報量規準に繋がっている。n→∞での漸近論経由でベイズ統計における信用区間は近似的に信頼区間に一致する場合があることも確認可能。

#統計以上の説明は純粋に数学的なもので「異なる定義を持つ量の間に近似的にどのような関係があるのか」という解析学における典型的な考え方のもとですべて言い切ることができる話しかしていません。

それを理解した人は、科学的常識に従って各種の道具を適切に自由に利用すればよい。

#統計以上のような視点に一度立つことに成功してしまうと、「頻度主義」と「ベイズ主義」という分類で整理するやり方や「仮説検定」と「統計モデリング」を全然違う話として整理することが、ことごとくダメな考え方に見えて来ることになります。

実際、ひどくダメだと思う。

https://twitter.com/genkuroki/status/1332809553608511488

#統計 χ²検定ではそこで使われるχ²分布の自由度を決めることが必要です。おそらく

Q. 自由度って何？

は統計学入門でもっともよく聞く質問の1つ。しかし、その場合への回答はシンプルで、

A. 帰無仮説によって減ったパラメータの個数が自由度になる。

以下のリンク先の例では(r-1)(c-1)が自由度。

https://twitter.com/genkuroki/status/1332809553608511488

#統計パラメータを持つ確率分布族としてのモデルを明瞭に認識し、帰無仮説をモデルのパラメータにつける制限条件として認識できれば、帰無仮説を表現した方程式(例えば2×2の分割表なら、「期待値のオッズ比=1」)でパラメータ空間の次元が何次元下がるかも分かる。それがχ²検定の文脈での自由度です。

#統計大事な点は、数学的にどのモデルを使っているかを明瞭に認識して、帰無仮説を言葉ではなく、方程式として認識し直すことです。

それができていればすべてがクリアになります。

#統計正規分布モデルでのt検定では帰無仮説に対応するモデルに残る分散のパラメータの存在は無問題。

2×2の分割表の独立性検定では帰無仮説に対応するモデルに残るパラメータと真剣に向き合う必要が生じ、

* 条件付き確率分布→Fisher検定
* Wilks' theorem→χ²検定

は解決法の良い例になります。

#統計そして、2×2の分割表における

* Wilks' theorem→χ²検定

の例を深く理解する過程で、Wilks' theoremの普遍的な力に気づけば、そこから赤池情報量規準AICを使うモデル選択までの距離はほとんど残っておらず、AICまで来ればベイズ統計でのWAICの利用の仕方もすぐに分かります。

#統計統計学ユーザーのためによく解説されている2×2の分割表の独立性検定は、以上の意味で教育的に非常に良い具体例になっており、うまく利用できた人は一挙に視界を広げることが可能になる可能性がある。

古典的な仮説検定から最新のベイズ統計モデリングまですべてを統一的視点で理解可能になる。

#統計 2×2の分割表の独立性検定については、Rで

* chisq.testは使うべきではない連続性補正がデフォルトで有効になっており、正確でないという意味の余計な警告を出し、信頼区間も表示してくれない。

* fisher.testが表示するP値と信頼区間には整合性がない。

となっていることも良い教訓になる。

#統計要するに定番の統計ソフトでさえ信用できないという点で現実を知る上で非常に教育的。

統計学の使用環境の現実がそうなっていることの背景には、昔から伝統的に言われていることであれば、どんなデタラメでも正しいとみなす独特の悪い習慣がある。

チョー算数問題の高等教育版。

#統計権威に従うことへのメリットを享受することをやっている人は真っ当な科学の道から外れている。

その正しさを自分で確認することなく、論文や教科書や規格や伝承によって広まっている慣習に従うことによって、社会的に【お墨付き】を得易くする行為はまさに非科学的！

https://twitter.com/genkuroki/status/1332871645371908098

#統計 2×2の分割表について、Rのchisq.testの「連続性補正がデフォルトで有効」「正確でないという意味の余計な警告」はソースコード github.com/wch/r-source/b… の添付画像に引用した部分。

https://twitter.com/genkuroki/status/1332871645371908098

#統計 2x2の分割表

a b
c d

において、n=a+b+c+d, p=(a+b)/n, p'=1-p, q=(a+c)/n, q'=1-qとおくとき、帰無仮説を満たす各成分の期待値

npq npq'
np'q np'q'

のどれかが5未満ならば、Rのchisq.testは

Chi-squared approximation may be incorrect

という警告を表示します。続く

#統計続き。しかし、実際に数値的な確認をすると、帰無仮説を満たす各成分の期待値のどれかが5未満の場合であっても、補正なしのχ²検定は多くの場合に十分に正確です。

その警告はユーザーを無駄に萎縮させていると思う。

(χ²検定がひどく不正確になるのは、成分の期待値が大きく偏っている場合)

https://twitter.com/genkuroki/status/1333008359918714892

#統計上で出て来た

npq npq'
np'q np'q'

を

A B
C D

と書くと、これのオッズ比が1になること

AD/(BC) = 1

を一目で確認できます。オッズ比=1は独立性の帰無仮説の方程式による表現の1つです。(2×2での独立性の帰無仮説は行列のランクが1になると言い換えることもできる。線形代数大事)

https://twitter.com/genkuroki/status/1333008359918714892

#統計上の

npq npq'
np'q np'q'

を分割表の独立性検定で「期待値」とよく呼びます。Rのchisq.testでもexpectedという名前が付けられています。

私はその辺の構成を始めて見たときに正直全く理解できませんでした。「期待値」という用語は「確率分布」を決めてから使って欲しい。続く

#統計続き。現在はよく理解していて、

(1) 分割表の確率分布族をモデルとして1つ設定する。

(2) 帰無仮説によってそのパラメータ空間を制限したモデルも考える。

(3) 分割表のデータに関する(2)の帰無仮説に対応するモデルの最尤法で得た予測分布の期待値が

npq npq'
np'q np'q'

になる。続く

#統計上の(1)で考えるモデルとして

①4成分が独立なPoisson分布に従う(パラメータ数4)
②4成分が多項分布に従う(パラメータ数3)
③各行(または各列)が独立な二項分布に従う(パラメータ数2)
④非心超幾何分布に従う(パラメータ数1)

の4つを想定しています。続く

#統計続き。これらの最尤法でデータ

a b
c d

から得た予測分布の期待値

a b
c d

になります。続く

#統計続き。それらを独立性の帰無仮説で制限したモデルの最尤法で得た予測分布の期待値は上で述べたように

npq npq'
np'q np'q'

になります。

要するに、この手の最尤法の計算をしないと、分割表の独立性検定は理解不可能だということです。

みんな、どうしているんだろうか？

#統計私は、2×2の分割表の独立性検定は非常に教育的な例になっていると思っている理由の1つが、その理解のために(比較的易しめの)最尤法の計算が複数のモデルにおいて必要になることです。

最尤法と関係すればWilks' theoremのような非常に普遍的で強力な定理を使用できます。

https://twitter.com/genkuroki/status/1325757353250095105

#統計しかも、Wilks' theoremは証明を理解できない人であっても、コンピュータを使えば比較的易しいコードを書くだけで数値的にその成立を(多くの場合に非常に鮮やかに)確認できます。(この点は中心極限定理と同様)

https://twitter.com/genkuroki/status/1325757353250095105

#統計証明をフォローするだけの数学的スキルがなくても、コンピュータを使った別の方法で、自分が使う場合については数値的にその成立を確認できる、となっていることは、数学的道具を他人に勧めるときには非常に重要な条件だと思っています。

誰かの権威の力で正しいと判断することは常にまずい。

#統計あると便利なのは、Wilks' theoremの特異モデルでも使えるベイズ統計版。誰か若くて優れた人が挑戦してみるべきだと思う。

#統計私が「なかま、キターっ！」と叫びながら小躍りしたブログ記事が以下。

「定説」であるかのように語られていることを、コンピュータで確認してみたら…という話。

【MATLAB】フィッシャーの正確確率検定はカイ2乗検定より本当に正確か？ qiita.com/KOICHI_5963/it… #Qiita

https://twitter.com/genkuroki/status/1333014147278094336

#統計 2×2の分割表のモデルの最尤法の予測分布を求める計算を行えば、独立性検定が、帰無仮説を課す前のモデル(対立仮説に対応)と帰無仮説を課した後のモデルの間のモデル選択の問題の特殊な場合になっていることにも気付きます。

ここまでたどりつければAICまでの距離は非常に小さい。

https://twitter.com/genkuroki/status/1333014147278094336

#統計 2×2の分割表の独立性検定ようなシンプルな検定であっても、その背後で2つの統計モデル(1つめな対立仮説に対応し、2つめは帰無仮説に対応)を使っていることを意識させることも、非常に教育的だと思います。

#統計仮説検定の類が統計モデリングとは全然別の話だと思っている人は、仮説検定の結果が統計モデル依存であることを理解していない可能性が高く、実際にそうなら仮説検定の使用を禁止されて然るべき教養しか持っていない人扱いが妥当になってしまいます。

#統計「仮説検定は知っているが、統計モデリングが何をやっているか理解できない」とあっさり言ってしまう人は、仮説検定が統計モデルや最尤法を使いまくっていることをおそらく知らないので、仮説検定についても知らないことがバレてしまいます。

おそらく、仮説検定を意味もわからずに使っている。

#統計仮説検定の類では目的に応じて統計モデルは決まってくる、平均値の差の検定ならt検定とか云々、のように語ることはミスリーディングだ思う。

実際には、「それしか知らない」のような不合理な基準で統計モデル(例：正規分布モデル)が使用されているから、決まっているように見えているだけ。

https://twitter.com/genkuroki/status/1324677973459443712

#統計平均の差に関するt検定はデータによって平均の違いのみをテストしているのではなく、「2つの独立な分散と平均が等しい正規分布」という統計モデル全体をテストしている、と正確に理解しておかないと、『統計的有意性とP値に関するASA声明』に反してしまいます。

https://twitter.com/genkuroki/status/1324677973459443712

#統計仮説検定やそれと表裏一体の信頼区間の解釈は、それらが前提にしているすべての前提を含めて行われるべきで(ASA声明がはP値について強調していること)、そのためには使用した統計モデルが何であるかを理解しておくことが必要です。

仮説検定では本当は統計モデル全体がテストされている。

#統計仮説検定はデータを用いた統計モデルの評価になっている。

信頼区間も同様で、信頼区間はパラメータ付きの統計モデルのデータを用いた評価になっています。信頼係数1-αのパラメータθの信頼区間の定義は、統計モデルM(θ)がデータから有意水準αで棄却されないθの範囲だとみなせます。

#統計あと言うまでもなく(教科書に書いてあるように)、情報量規準によるモデル選択は複数の統計モデルのデータによる相対評価になっています。

要するに、仮説検定、信頼区間、情報量規準によるモデル選択はどれも「統計モデルのデータによる評価」に過ぎないわけです。続く

#統計この基本的事実を押さえずに、「仮説検定や信頼区間よりも、統計モデリングを使うべきだ」(もしくは前者より後者が優れている)というような説明をしている人達がいるから、初学者達がミスリードされて分からなくなってしまうのです。

#統計統計学よりも上位にある普遍的な考え方(科学のイロハのイ！)である「データによるモデルの評価」という基本に戻るべき。

仮説検定や信頼区間の基礎教育の問題点は、統計モデルをテストしていることが分からない説明になっていることです。

#統計 P値で評価されるのは、帰無仮説単体ではなく、背後にある仮定のすべてです(ASA声明)。

だから、仮説検定において「使用した統計モデルでデータを生成した未知の分布が十分よく近似されていること」を当然の前例にすることは、P値の典型的な誤用であるということになります。

#統計例えば、正規分布モデルを用いたt検定では「正規分布でデータを生成した未知の分布がよく近似されている」という前提も当然疑いの対象としなければいけません。

多くの解説が(ASA声明に反して)この事実を正直に説明していない点は極めて非科学的な態度だと思います。

#統計仮説検定や信頼区間を使う統計分析ではモデルで母集団分布を近似できていることを前提にするが、統計モデリングでは近似できていることを前提にせずに近似の度合いを評価しようとする、のような__明らかに間違っている解説__を聞いてしまった人は要注意‼️聞いた人がいれば報告してほしい。

#統計仮説検定や信頼区間もモデルによるデータの生成法則の近似の度合いを評価しているとみなせるし、『統計的有意性と P 値に関する ASA 声明』に忠実に従ってもそうならざるを得ないので、統計モデリングに移行した途端に全然違うことを始めると他人に教えるのは非常にまずい。

#統計『統計的有意性とP値に関するASA声明』のような内容的には常識に属する声明がわざわざ出されていることは、仮説検定自体が多くの場合に誤用されていることを示しています。

「使用した統計モデル」(例：正規分布モデル)も疑うべきであることを正直に説明しない解説が悪いのだと思います。

#統計以上で私は科学のイロハのイである「データを使ったモデルの評価」という考え方に戻って、仮説検定、信頼区間、統計モデリングにおけるモデル選択について統一的な説明をしているのですが、特別なことは述べておらず、どちらかと言えば常識的な考え方を述べているに過ぎません。

#統計何が問題か？

教科書には仮説検定や信頼区間について以上で述べた意味でひどく非科学的な説明が書いてあるように見える。

そのせいで生じている誤解を、最近の「統計モデリング」推しの解説がさらに悪化させているように見える。

「頻度論vs.ベイズ」的なデタラメの普及はこれの一部分。

#統計例：2×2の分割表の独立性検定は、帰無仮説で制限する前のモデルと帰無仮説で制限したモデルの予測分布を比較するモデル選択の一種になっている。

(ただし仮説検定なので帰無仮説を課した側のモデルが正しいのに間違って棄却される確率(第一種の過誤の確率)を低くおさえようとする。)

#統計 2×2の分割表の独立性のχ²検定は非常に有名な典型的な仮説検定の1つです。そのような仮説検定においても(最尤法による)予測分布のデータによる相対評価がもろに出て来ているわけです。

#統計このスレッドの主張の1つは、「Fisher's exact testは正確な検定で、χ²検定はその近似に過ぎない」という考え方はひどく間違っているということです。どちらも不正確なので誤差の大きさが問題になる。

Fisher検定とχ²検定にはそれぞれ長所と短所があります。詳しくはスレッドの中身を参照。

#統計このスレッドでは、Cochranさんの1952, 1954の論文を引用しただけで自分自身でその正しさを何も確認していないくせに(コンピュータで確認例を1つも計算していないくせに)、「分割表の独立性検定では所謂Cochranルールに従うべきだ」と他人に教える行為を非難しています。世界中で蔓延している。

#統計私は大学で「数学については教科書に書いてあるという理由で正しいと判断してはいけない。その正しさを自分自身で確認してみることが大事である」という教育を徹底的に受けました。

これは統計学を学ぶときにも当然のことだと思います。

#統計大学で「自分の力で証明をフォローできないんですが…」と相談すると、「シンプルな例でその主張が成立していることは確認してみましたか？」と言われるのが基本パターン。

https://twitter.com/genkuroki/status/1195564328734191616

#統計

jstage.jst.go.jp/article/dds/30…
連載第3回
医学データの統計解析の基本 2つの割合の比較
朝倉こう子・濱﨑俊光
【常用的にFisherの直接確率計算を使用することは避けたほうがよさそうである】

Cochranルールを鵜呑みにせずに自分で計算して確認すればこういう結論が自然に出るものと思われる。

https://twitter.com/genkuroki/status/1195564328734191616

https://twitter.com/genkuroki/status/1332597831660564480

#統計

信頼度1-αの信頼区間
= 有意水準αで棄却されないモデルのパラメータの範囲

の1つの適切な使い方は、「リスクに関わる予測において、使用したモデルを前提としたときに、パラメータが信頼区間にふくまれることは覚悟しておかなければいけないと判断すること」だと思います。続く

https://twitter.com/genkuroki/status/1332597831660564480

#統計もちろんモデル自体の妥当性も常に検討する必要あり。

そして、信頼区間でなくても、「モデルを前提としたときに、パラメータが含まれていることを覚悟しなければいけない範囲」のように解釈可能なものは信頼区間と同様の使い方をできると考えられます。ベイズ統計ではベイズ信用区間が使える。

#統計ただし、ベイズ統計でのベイズ信用区間は事後分布という数学的にはモデル内部でしか意味を持たないものを使って定義されているので、その数学的性質を十分に理解して使う必要があります。

数学的に信頼区間は誤解し難い易しい概念ですが、ベイズ統計の理解は全般的に難しくなります。

#統計現実には、豊田秀樹さんのように、通常の信頼区間よりも、ベイズ統計の信用区間=確信区間の方が易しいと主張するおかしな人たちが珍しくないので、すでに本を購入して読んでしまった人達は注意が必要です。

信頼区間自体は検定について理解していれば易しい。
ベイズ統計は数学的に難しい。

• • •

Missing some Tweet in this thread? You can try to force a refresh

Share this page!

Enter URL or ID to Unroll

黒木玄 Gen Kuroki

Try unrolling a thread yourself!

More from @genkuroki

黒木玄 Gen Kuroki

黒木玄 Gen Kuroki

黒木玄 Gen Kuroki

黒木玄 Gen Kuroki

黒木玄 Gen Kuroki

黒木玄 Gen Kuroki

Did Thread Reader help you today?

Don't want to be a Premium member but still want to support us?

Send Email!