#統計 「信頼区間」のような入門的な統計学用語を定期的にツイッターで検索しているのだが、

❌P値の使用はやめるべき



❌P値ではなく信頼区間を使うべき

がワンセットになっている誤解をよく見る。

⭕️95%信頼区間の各点には5%以上のP値達が乗っている

というイメージが見えていないらしい。
#統計 95%信頼区間は「P値が5%以上になるパラメータ値全体の集合」なので、本質的に

❌P値を使わずに、信頼区間を使うこと

は不可能です。

信頼区間に含まれるパラメータ値達の立場は同等ではなく、それぞれにP値というデータの数値とモデル+パラメータ値の相性の良さの指標が対応しています。
#統計 95%信頼区間の両端の点に対応しているP値は5%で、一般に100(1-α)%信頼区間の両端の点に対応してP値はαになります。

αを動かして、さまざまな幅の信頼区間を計算すれば、パラメータ値にどのようなP値が対応しているかがわかる、のように考えることができます。
#統計 逆に、パラメータ値の各々にP値を対応させるP値函数が与えられているならば、P値がα以上になるパラメータ値全体の集合として100(1-α)%信頼区間が得られます。

パラメータ値の各々にP値を対応させるP値函数



有意水準αに100(1-α)%信頼区間を対応させる信頼区間函数

は1対1に対応している。
#統計 こういう事情があるので、P値の使い方を批判し、その代替案を真剣に提案している専門家達は、P値の使用そのものを否定していません。

否定されているのは、違いがないことを意味する特殊な帰無仮説のP値だけで科学的な重要な決定を行うこと。

繰り返します。P値の使用自体は否定されていない!
#統計

否定されていること
❌「違いがない」の型の帰無仮説のP値だけを計算して、その特殊なP値に基いて科学的に重要な決定を下すこと

信頼区間の使用
⭕️「違いは○○である」の型の仮説のP値を全て計算してα以上になる値○○全体の集合を求めること

これらの違いを認識することが重要です。
#統計 以上で説明したことについては、非常に短くて分かり易い以下の論文を読めばよりクリアに理解できると思います。

Amrhein-Greenland June 3, 2022
journals.sagepub.com/doi/10.1177/02…

この論文の著者達は nature.com/articles/d4158… (800人の科学者が統計的有意性に反対)の記事の共著者にもなっています。 Image
#統計

❌違いがないことを意味する帰無仮説のP値だけで科学的に重要な判断を下す

というnullismは否定されています。しかし、これだけがP値の使い方ではないので、

⭕️P値の使用自体

は否定されていません。有名な記事である

nature.com/articles/d4158…

の内容は酷く誤解されている。
#統計 添付画像は既出の journals.sagepub.com/doi/10.1177/02… より。

これはデータの数値から得られるP値函数のグラフ。

横軸には「ハザードリスクは○○である」という仮説が並んでおり、縦軸はその仮説のP値になっています。

「HR=1」型の帰無仮説のP値しか見たことがない人にとっては「目から鱗」だと思う。 Image
#統計 journals.sagepub.com/doi/10.1177/02… にある以下の図を見ればわかるように、「800人の科学者達が統計的有意性に反対」の記事 nature.com/articles/d4158… の共著者でもあるAmrheinさんとGreenlandさんは、P値の使用を否定しているのではなく、

 もっと沢山のP値を計算するべきである

と言っています。 Image
#統計

❌効果無しを意味する帰無仮説のP値だけで重要な決定を下すこと

を否定しつつ

⭕️「効果は○○である」の型の仮説のP値もすべて計算すること



journals.sagepub.com/doi/10.1177/02…

は勧めているわけです。

統計学入門における検定と信頼区間の解説はこの方向で全面的に書き直す必要があるかも。 Image
#統計 この線に沿って解説したいときに生じる大きな障碍の1つは、RでP値函数のグラフをプロットするときに、コードを自分で書かなければいけない場合が多いことです。

一部の親切なパッケージはplot=TオプションをつけるとP値函数のグラフを自動的にプロットしてくれますが、そういうのは例外的です。 Image
#統計 例えば、Rのexact2x2::exact2x2はplot=TでP値函数をプロットしてくれます。

P値の正しい使い方に関する議論を普及させるためには、統計ソフト側のこういうサポートが必要なのですが、Rのような統計学ユーザーの大集団のエコシステムでもまだ一般的になっていないという問題があります。
#統計 個人的には確率をexactに計算して作ったP値ではなく、正規分布近似を使って作ったP値のグラフも自動的に描いて欲しいのだ。

あと、Welchのt検定の函数でもplot=TでP値函数をプロットして欲しい。

プログラミング好きのRユーザーにはこういう方面でも貢献できることを広めたいです。
#統計 お勧めの短くて分かり易い論文 journals.sagepub.com/doi/10.1177/02… を読んだ人は、そこでされている議論は、よく見かける

❌「ネイマン&ピアソン vs. フィッシャー vs. ベイズ主義者」のような枠組みで統計学の使い方について議論すること

の類とは一線を画していることがすぐにわかると思う。
#統計 私の経験では「頻度論」とか「頻度主義」という用語を躊躇せずに使って議論している人達はおかしなことを言っている場合が非常に多いです。特に「頻度主義」を批判しているつもりの文献が危ない。

これは要注意だと判断するために結構役に立つ判定法だと思います。(偽陽性も結構あるのですが)
#統計 ベイズ統計に対する「事前分布の恣意性」の指摘による批判も多くの場合にクズそのものであることも覚えておくと便利かもしれません。

従うと危ない人の側に与することになる言説が大量に流布している。アンフェアで攻撃的な言説が実に多い。

⭕️どの道具にも欠点があるが有用でもある。
#統計 攻撃的な言説の例。以下のリンク先スレッドの件は、信頼区間の適切な構成を自分でできるだけのスキルがないと、不当に攻撃的な言い方をしていることを見抜けなくなる。

統計学における悪しき言説は数学的な複雑さを隠れ蓑に使っているとみなせる場合が多い。やっている本人も自覚が無さそう。
#統計 訂正

❌ハザードリスク
⭕️ハザード比

P値ユーザーが

 仮説「HR=1」のP値だけではなく、
 任意の数値aに関する仮説「HR=a」のP値も計算するべき

と言われて抵抗するのは難しいと思う。そして

 今までどうして「HR=1」のP値しか
 計算しなかったのだろうか

と思うのではなかろうか。

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with 黒木玄 Gen Kuroki

黒木玄 Gen Kuroki Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @genkuroki

Sep 30
#統計 以前にも述べたことですが、

ism.ac.jp/editsec/toukei…
情報量規準 AIC の統計科学に果たしてきた役割
小西 貞則
2019

の添付画像の部分はひどいです。

BICもあるKL情報量(+モデルによらない定数)の(大胆な)推定値になっていることを小西さんは理解していないっぽい。

リンクに続く Image
#統計 続き

以前に述べていたことは以下のリンク先すれっどにある。

BICは対数周辺尤度の-2倍の大胆な近似とみなされ、対数周辺尤度の-1倍の標本の確率的揺らぎに関する期待値は

 あるKL情報量+モデルによらないある定数

に一致している。

渡辺澄夫『ベイズ統計の理論と方法』を参照。
#統計 渡辺澄夫『ベイズ統計の理論と方法』のようなよく普及している教科書レベルの内容を理解していれば、【納得いきます】とは言ってはいけない案件。

その本に書いてあるように、BICの近似先の対数周辺尤度の-2倍は2KL情報量+定数の推定値だとみなされるので、情報量規準という呼び方は自然。
Read 28 tweets
Sep 30
この発言はひどいので、きくちさんにすみやかに謝罪して、撤回するべき。

勘違いして擁護していた側が批判側に回ること自体が結構大きめの貢献になる場合は結構多いので、意見を変えることを躊躇する必要はないと思いました。
【僕にもバイアスはありますが、それでファクトチェックが不当に歪まないように〜自分を日々チェックしてます。】

これを信用してもらうためには、

HPVワクチンについての朝日新聞の報道については徹底的にファクトチェックする

と言う必要があります。これを言えないようだとアウト。
参考資料

JFCファクトチェックガイドライン

docs.google.com/document/d/1lX… Image
Read 25 tweets
Sep 29
#Julia言語 以下のリンク先と同じことをやってみたい人のための解説

①まず、 julialang.org/downloads/ からCurrent stable releaseで自分のパソコンに合っているものをダウンロードし、自分のパソコンにインストールする。

②インストールしたJuliaを起動する。

添付画像はnightly build。続く Image
#Julia言語

③添付画像1のように julia> プロンプトに

using Plots

と入力してエンターキーを押します。

そして添付画像2のように y と入力しエンターキーを押します。

すると添付画像3,4のようにPlots.jlパッケージがインストールされます。 ImageImageImageImage
#Julia言語

github.com/genkuroki/publ… にアクセスし、そこの In[1] のusing Plots以外の部分を、julia> プロンプトの側にコピー&ペーストして下さい。

そして、最終行の確定のためにエンターキーも押しておく。

そしてしばらく待ちます。 ImageImageImage
Read 15 tweets
Sep 28
#統計 以下のリンク先で引用されている jakevdp.github.io/blog/2014/06/1… のExample 2: Jaynes' Truncated Exponential の内容がひどかったので、Jaynes(1976) bayes.wustl.edu/etj/articles/c… の関連箇所を見たらもっとひどかったので、ひどさが分かるようにノートを作りました。

github.com/genkuroki/publ…
#統計 Jaynes(1976) bayes.wustl.edu/etj/articles/c… (doi.org/10.1007/978-94…)のpp.196-198がびっくりするぐらい酷い。

__不適切な__信頼区間の構成法と平坦事前分布のベイズ信用区間を比較して、信頼区間を強くdisり、さらにp.198辺りでそのことについて講演したときの様子を偉そうに説明している。 ImageImageImage
#統計 統計学の内容以前に人間性が疑わしく思えて来そうなほど偉そうに書いている。

私には、単にJaynesさんは切断指数分布モデル(truncated exponential distribution model)の場合に、適切な信頼区間の構成法を見付けることができなかっただけに見えました。

github.com/genkuroki/publ…
Read 17 tweets
Mar 15
#統計 n回中k回奇数の目が出たというデータが得られたとき、

pᵏ(1-p)ⁿ⁻ᵏ

を最大化するpの値k/nを奇数の目が出る確率の推定値とするのが、二項分布モデルでの最尤法に一致します。

その最尤法では、n回中k回奇数の目が出たら、奇数の目が出る確率はk/nだと推定される。非常に安易!続く
#統計 データからの最も安易な推定法は、シンプルなモデルを使った最尤法に一致することが多いです。

上の例では、3回中3回とも奇数の目が出ると、奇数の目が出る確率は3/3=1だと推定される。

この推定結果は真実を意味するわけでも何でもなくて、特定の方法による単なる推定結果に過ぎません。
#統計 最尤法については、入門的な教科書の多くに妙な説明がよく書いてあります。

東大出版会の『統計学入門』は最尤法に限らず統計学における基本概念についてことごとくミスリーディングな説明をしているのに、標準的教科書の地位を占めてしまった。

これが高等教育の現実で結構厳しい。
Read 17 tweets
Mar 15
#統計

データと統計モデルが与えられたときに、モデルのパラメータ値にP値を対応させる函数をP値函数と呼びます。

P値函数全体の情報は尤度函数全体の情報に近似的に等しくなる場合が多い。

その場合には、P値函数が最大になるパラメータ値は最尤法による点推定の結果に近似的に等しくなる。続く
#統計 さらに、尤度函数全体の情報はベイズ統計での事後分布の情報にも近い。(事前分布の違いしかない(笑))

このように、Rothmanさん達の疫学の有名教科書がすすめているP値函数全体を使うという考え方は、尤度函数全体の様子を見ることとの関係を通して、ベイズ統計と地続きで繋がっています。
#統計 データと統計モデルから決まる

 P値函数、尤度函数、事後分布の3つ

はほぼ同じような使い方をできる統計量になっています。

こういう理解の仕方ができれば、「主義が違う別の統計学がある」という有害な言説に騙されることなく、柔軟に統計学的ツールを使いこなし易くなると思われます。
Read 6 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Don't want to be a Premium member but still want to support us?

Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal

Or Donate anonymously using crypto!

Ethereum

0xfe58350B80634f60Fa6Dc149a72b4DFbc17D341E copy

Bitcoin

3ATGMxNzCUFzxpMCHL5sWSt4DVtS8UqXpi copy

Thank you for your support!

Follow Us on Twitter!

:(