東京大学出版会の『統計学入門』を運悪く「真面目」に読んでしまい、それに従って、「確率ではなく、割合だ」というスタイルで「信頼区間警察」をやっている側が狼藉之義也の「ヒャッハー」達だという問題。

へたをするとこれが高校数学にも伝搬する恐れがある。
最近の例では

tjo.hatenablog.com/entry/2021/07/…
渋谷駅前で働くデータサイエンティストのブログ
2021-07-16
95%信頼区間の「95%」の意味

がひどい。

教科書に書いてあるという事実は正しいことの証拠にはなりません。
#統計 正しい考え方

* 信頼区間の計算では通常パラメータを持つモデル(例えば正規分布モデルや二項分布モデルなど)が使われる。

* 95%信頼区間の95%はそのモデル内での標本分布で測った確率(の近似値)になる。

* 使用したモデルが現実において妥当でなければ、信頼区間は信頼できないものになる。
確率という言葉を使うことを大学の学部で講義する人の多くは、「どの確率分布(確率測度)で測った確率であるか」を明確にしておかないと危ないことについても話すと思います。

95%信頼区間の95%についても同じことが当てはまります。その95%はモデル内標本分布で測った確率(の近似値)になる。
どの確率測度で測ったものであるかを明瞭に理解していれば、「確率」と呼んでも全然問題ないことは自明です。これがアウトなら、「確率」という用語を使える場面がなくなってしまいます(笑)。

それなのに「確率ではなく、割合だ」と狼藉之義也なことを言う人達がいる。
一般教養的に、最重要なことは

 信頼区間を計算するために使ったモデルが
 現実において妥当でなければ、
 その信頼区間は信頼できないものになる

だと思います。この事実を認識できていないと、信頼区間を示されただけで、精神的に平伏すしかなくなってしまう危険性がある。

それはまずい。
幅を持たせた予測を目にすることは日常生活で普通にあります。

「幅を持たせた予測」の背後にあるモデルやパラメータを変えれば当然予測も変わります。

その辺の事柄を普通に理解している人たちが増えないと社会的に有害なことが起こりまくり易くなります。そうなることを防ぐ教育が必要です。
「確率ではなく、割合だ!ヒャッハー!」的な狼藉之義也は肝腎の事柄についてひどくミスリーディングなことをやっているので、きちんと「社会的に有害」扱いして行く必要があります。
#統計 使用したモデルが現実において妥当でなければそのモデルを使って得た結果は信頼できないものになる。

こういう当たり前の話は信頼区間についても当然当てはまるのですが、学部生向けの統計学の教科書でその辺がクリアに説明されていないことは、非常に困ったことだと思います。
#統計 学部生向けの統計学の教科書でその辺がクリアに説明されていないことは、学部生向けの統計学の教科書を読んだ人の多くが、「正規分布を仮定しちゃっていいの?」という疑問を解消できなくなっていることからもよく分かります。
#統計 統計学が専門でなくても、統計学の講義をする仕事が割り振られる場合がある。

実際にそうなった人は、学部生向けの統計学の教科書達の内容をチェックすることになるのですが、多くの基本的な疑問が解消しそうもない書き方がされているので、大変な恐怖を感じた人は非常に沢山いると思う。
#統計 しかもその説明が曖昧にされている部分は、

 統計学を使えば科学的にお墨付きが得られる

という

 幻想

を払拭できなくするように曖昧に説明されているのではないかと推測すると辻褄がかなり合う感じ。
#統計 例えば、信頼区間もモデル依存(例えば正規分布モデル依存)であり、モデルが妥当でないと信頼区間も信頼できないものになることを強調してしまうと、信頼区間はそれ単体で科学的なお墨付きが得られる類の道具では決してないことが明瞭になってしまう。

そういうことを避けているのではないか?😱
#統計 添付画像中の95%信頼区間の説明において、仮想的に無作為抽出を繰り返す対象は現実の母集団ではなく、信頼区間を計算するために用いた数学的モデル内における仮想的な母集団でなければいけません。

添付画像のような説明の仕方は、現実とモデルの区別を曖昧にする非科学的な説明の仕方です。
#統計 95%信頼区間の95%が数学的なモデル内における割合(注意:測度論的確率論の定式化では確率と割合は同じ意味になる)に過ぎず、「仮に現実で無作為抽出を繰り返したらどうなるか」という意味での割合ではありません。
#統計 「確率ではなく割合だ」などと自明に誤解を招く説明をしながら、現実とモデルの区別を曖昧にするスタイル。

実はこの件について酷いことは他にもあって、ベイズ統計での信用区間についてのデタラメもおまけでついて来ることが多い。
#統計 悪しき「信頼区間警察」達の言説では

❌95%信頼区間の95%は確率ではなく割合だ!

という誤解だけではなく、

❌ベイズ統計における95%信用区間では真の値がそこに含まれる確率は95%であると言ってもよい!

というさらにひどいデタラメを主張する所までがワンセット。
#統計 誰でも馬鹿なことを述べてしまうことがあるので、単に間違っているだけで、大問題だと騒ぐのは間違っています。

しかし、以上の件で、おかしなことを言っている人達が、誤りを素直に認めて謝罪しているのを見たことがない。

おそらく自分達は間違っていないと本心から信じ続けている。😭
#統計 学部生向けの統計学の教科書では、正規分布モデルとt分布を使った平均の信頼区間の計算の仕方が大抵載っています。

母集団が正規分布からずれている実践的に普通の状況での、そのように計算した信頼区間の信頼性に関する詳しい説明については、私のツイログを参照。

twilog.org/genkuroki/sear…
#統計 正規分布モデルとt分布を使った平均の信頼区間では、中心極限定理が効いて来る状況なので、母集団分布が正規分布から少しだけずれている程度なら、95%信頼区間の95%は信頼できる数値になります。

しかしずれが大きいとアウトになります。

詳しくはツイログを参照

twilog.org/genkuroki/sear…
#統計 この辺は、コンピュータで「正規分布モデルを使った95%信頼区間の95%という数値が信頼できなくなる場合の例」を複数作ってみる経験抜きに納得するのは無理だと思います。

私のツイログをあされば #Julia言語 を使ってそのような例を作るコードを丸ごと見ることができます。
#統計 n→∞での漸近論が有効な領域でどうであるかなら、ちょっと数学ができれば、比較的容易に色々わかる。

しかし、nが有限の小さめの値の場合には、実際にコンピュータで計算しないとよく分からないことが多い。

この「小さめの値」が曲者でn=100万でも「小さめの値」とみなすべき場合がある。

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with 黒木玄 Gen Kuroki

黒木玄 Gen Kuroki Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @genkuroki

14 Sep
#Julia言語 『数値計算の常識』という有名な本があって第5章のタイトルが「逆行列よさようなら」です。

Juliaでは計画行列Xによるバックスラッシュ演算

β̂ = X \ y

の一発で最小二乗法も計算できます。

github.com/genkuroki/publ…
#数楽 Xが縦長の行列で、β, y が縦ベクトルのときの、βの成分に関する連立一次方程式

Xβ = y

は一般に解を持たないのですが、Xβとyのユークリッド距離を最小にするようなβをβ̂と書いて、「解」とみなすのが最小二乗法の考え方です。その「解」を

β̂ = X \ y

と書くことは記号法的に自然です。
#Julia言語 Juliaがバックスラッシュ二項演算子で最小二乗法も可能にしていることの背景には以上のような数学が隠れています。
Read 13 tweets
13 Sep
#統計 #数楽 この短い動画も非常にためになるし楽しめる。

「変分ベイズ」「変分推論」のように呼ばれる方法は、計算が大変な真の分布φ(w)を特別な形の分布ψ(w)でφ(w)から最も出て来やすいもので近似する方法。続く
#統計 Kullback-Leibler情報量 D(ψ||φ) は、Sanovの定理より、「分布φのサンプルの分布として分布ψに近いものの出て来やすさ」を意味する。

もしも分布ψの台が分布φの台よりも真に大きいならば、そのはみ出した部分の値はφから出て来ないので、D(ψ||φ) = ∞ となる。

続く
#統計 D(ψ||φ) < ∞ ならばψの台はφの台に含まれる。

固定されたφに対して、特別な形のψを動かして、D(ψ||φ) を最小化すると(変分推論!)、分布ψは分布φよりも狭い部分に集中した感じの分布になり易い。

以下のリンク先の場合には実際に概ねそうなっているように見える。
Read 16 tweets
12 Sep
素晴らしいスレッドだったので大量にRTしました。

しかし、最後に「立式」という聴き慣れない有害で特殊な意味を持つ算数教育用語を使ってしまっている点は、人権問題に発展するかもしれないので注意が必要だと思いました。😝

「式  答え 」のスタイルそのものが子供を悪しき枠にはめている。
多くの人が誤解していることですが、「立式」という用語は国語辞典にも載っていない用語で、単に「式を作る」というようなニュートラルな意味を持つ無害な用語ではありません。

子供を害するちょー算数の中核部分と関係している極めて有害な用語なので取り扱い注意です。
「立式」という特殊な用語が歴史的にどのように使われていたかについては、以下のスレッドを参照。

「立式の意図」を以下のリンク先の意味で子供に問う行為は、人権問題に発展する恐れが十分にあります。😝
Read 6 tweets
12 Sep
一般に印象操作に一所懸命な変な人の意見は適当にスルーした方がよいと思いました。
一般に、難しいことを理解できない人たちで周囲を固めている人の観測範囲内でそれが受け入れられていないことと、それが実際に有用であるか否かは無関係。
大学で統計学が専門じゃないのに統計学の講義を受け持つことになった人にとって、カイヤンさんが説明してくれていることの多くが参考になると思います。

ついつい「流行っている」という理由でベイズ統計の話題に触れるときに、注意するべきことがあります。「主義」に関わる話題は本当に要注意。
Read 6 tweets
11 Sep
#Julia言語 1万人に一人あたり100万円配って、その後ランダムに誰かから1万円を取り上げて(破産していたら取るのを諦める)、別の誰かに配ることを繰り返したときの、保有金額の分布の推移のアニメーション。

分布の収束先は不平等な指数分布。

これは「税額一定」の場合。

github.com/genkuroki/publ…
#Julia言語 不平等な指数分布になった後に、今度はランダムに誰かを選んで保有金額の5%の税金を徴収して別の誰かに配ることを繰り返すとこうなる。

分布の収束先はかなり平等的なガンマ分布。

証明は知らない。誰か教えて!(笑)

(((わざと真剣に考えていない)))

github.com/genkuroki/publ…
#Julia言語 ここからが真に面白い話になる。

さて、ついさっき税額ではなく、税率を一定にしたランダムな富の分配で平等に近付けることができることを紹介した。

税率は5%だった。

問題:税率を50%に上げるとさらに平等になるか?
Read 21 tweets
11 Sep
#Julia言語

色々よく分かっていないあいだは、内部コンストラクタを定義しない方が無難だという話。

添付画像は

github.com/genkuroki/publ…

より。これの1つ前のコードでは赤枠部分の外部コンストラクタしか定義されていなかった。青枠部分は後で追加された。

続く
#Julia言語

struct Foo{T}
a::T
b::T
Foo(a::T) where T = new{T}(a, T(2)a)
end

と内部コンストラクタFoo(a)を定義すると、これ以外にFoo型のオブジェクトを作る方法が失われ、フィールドbは常にaの2倍になることになります。

この仕様を変更するにはコードの変更が必要になる。
#Julia言語 一方、

struct Bar{T}
a::T
b::T
end
Bar(a::T) where T = Bar{T}(a, T(2)a)

と内部コンストラクタを定義せずに、外部コンストラクタBar(a)を定義しているなら、デフォルトで定義されているBar(a, b)を使ってbをaの2倍以外の値に設定できます。
Read 8 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Too expensive? Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal Become our Patreon

Thank you for your support!

Follow Us on Twitter!

:(