統計量の分布をぼーっと眺める 〜中心極限定理観察〜 qiita.com/gilbert_yumu/i… #Qiita @gilbert_yumuより
【中心極限定理の可視化、また母集団によっては成り立たないことの可視化】

#統計 中心極限定理が成立しない場合や成立していても収束が遅い場合も扱っている点が非常に良い。
中心極限定理が特別に非常にうまく行く場合(ベルヌイ分布、一様分布、左右対称な分布の多く)の可視化だけを見て終わりにすると、中心極限定理による近似が小さなnで常に良くなるように誤解してしまうリスクがあると思う。

中心極限定理が成立してかつ収束が遅い場合の可視化は特に重要だと思う。
#統計 和に関する再生性と条件付き分布 qiita.com/gilbert_yumu/i… #Qiita @gilbert_yumuより

これも教育的。条件付き確率分布の計算は基本の1つ。簡単だが、非自明さのある面白い例を紹介している。匙加減が非常によい。
#統計 ポアソン分布を和で条件付けすると二項分布となる qiita.com/gilbert_yumu/i… #Qiita @gilbert_yumuより

やばい。これも極めて教育的だった!

①条件付き確率分布の構成は本質的に重要。

②ポアソン分布は多くの離散分布のビルディングブロックになっている。
#統計 そのブログ記事にはそこまで書いていないですが、ポアソン分布のλ→∞での漸近挙動をスターリングの公式で計算すると、Kullback-Leibler情報量のビルディングブロックが得られます。
#統計 二項分布や多項分布の漸近挙動もスターリングの公式をぶち込めば計算できるのですが、ポアソン分布の直積の場合の方が易しいです。

二項分布や多項分布の漸近挙動はそれらがポアソン分布の条件付き確率分布であることから易しく得られる。
#統計 以上はKL情報量が二項分布や多項分布の漸近挙動に出て来ること(Sanovの定理)の確認の計算の話なのですが,ポアソン分布について先にやっておくと超絶楽になるという話。

二項分布や多項分布の中心極限定理の導出はそのような計算経由でやると易しいです。
#統計 Poisson分布をビルディングブロックにして、条件付き確率分布として、二項分布や多項分布を作り、Kullback-Leibler情報量のSanovの定理を得て、中心極限定理に至る計算の筋道については以下のスレッドを参照。
#統計 もしくは、Poisson分布の条件付き確率分布で多項分布やKL情報量や多項分布の中心極限定理をとらえる話については、

genkuroki.github.io/documents/2016…
Kullback-Leibler 情報量と Sanov の定理 黒木玄
2016年6月16日作成

のpp.15-19を参照。

pp.15-18
#統計 続き p.19
#統計 中心極限定理の収束が遅くなるせいで、平均の95%信頼区間に真の値が含まれる確率(警告!確率的に揺らぐには信頼区間の側、確率だと言ってよい、割合だと言っている人達は分かっていない)が80%を切る例

nbviewer.org/github/genkuro…

の[5]にある。
#統計 n=20で平均の95%信頼区間に真の値が含まれる確率が80%を切ってしまうモデルの確率分布の確率密度函数pdfと累積分布函数cdfのプロット。

青線がそれ。橙破線はそれの二種類の正規分布近似。

[9]の近似では見た目的に青線はほとんど正規分布だと感じてしまうが、それは誤解である。
#統計 検定も区間推定もモデルに強く依存しており、モデルに妥当性がないと結果も信頼できないものになる。この点は検定や推定に関して最も基本的な事実だと思うが、統計学入門の教科書ではこの逆の印象を与えかねない解説がされている場合が多い。

うまく行かない場合の例の提示は非常に重要。
#統計

nbviewer.org/github/genkuro…
の終わりに中心極限定理の視覚化を追加

添付画像は大きな山の右に小さな山が追加された分布の中心極限定理の収束の様子。小さなnで標本平均の分布の形が多峰型になっていてちょっと面白いです。

中心極限定理の収束の途中の様子は色々あります。
#統計

nbviewer.org/github/genkuro…

よく見るのは添付画像のような一様分布の中心極限定理の視覚化。n=5の段階で標本平均の分布がほぼ正規分布になってしまっています。この場合の収束は例外的に非常に速い。

これが普通だと思うのは危ないと思います。
#統計 レベル的に学部生向けの統計学入門の教科書には、「母集団分布は正規分布であると仮定する」だとか、n→∞でのうまく行く近似を有限のnで適用するだとか、色々怪しいことが書いてある場合が大部分なのですが、怪しいと感じる側が正しいことを示す具体的な計算例を作ると理解が進みます。

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with 黒木玄 Gen Kuroki

黒木玄 Gen Kuroki Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @genkuroki

9 Dec
#統計

⭕️正規分布に従う母集団から標本を無作為に取ってきてそのサイズと平均と不偏分散から95%信頼区間を求めた時に、その区間の中に95%の確率で母平均が含まれる。

は正しいです。ただし、確率的に揺らぐのは標本や信頼区間の側で、母平均は固定されています。続く
#統計

❌正しくは、「母集団から標本を無作為に取ってきて、そのサイズと平均と不偏分散から95%信頼区間を求める、という作業を100回やったときに、95回はその区間の中に母平均が含まれる」という意味です。

は誤り。「正しくは」と訂正しようとしている所が単純に間違っています。訂正は無用。続く
#統計 「95%信頼区間の95%は確率ではなく、割合である」という信頼区間の定義に反する自明に間違っている主張をわざわざ広めて大恥をかいている人たちは一体どういうつもりなのか?

詳しくは私のツイログを参照

twilog.org/genkuroki/sear…
Read 12 tweets
8 Dec
#統計 せっかく作ったので教育用のノートブックを放流

#Julia言語
nbviewer.org/github/genkuro…

二項分布のある種の極限でPoisson分布が得られる(添付画像③④)のと同じように、負の二項分布のある種の極限でガンマ分布が得られる(添付画像①②)。 ImageImageImageImage
#統計 r=3, p=1/(5N)の負の二項分布を1/N倍でスケールして得られる分布のcdfはN=100でα=3, θ=5 のガンマ分布のcdfにほぼぴったり一致している。

離散分布と連続分布の比較は累積確率分布函数(cdf)のプロットで比較すると楽です。

#Julia言語
nbviewer.org/github/genkuro… Image
#統計 この極限はそれぞれの分布の意味が分かっていれば「当然そうなる」と思える類のものです。
Read 4 tweets
8 Dec
#統計 推定推測推論用に用意したパラメータθ付きの確率分布モデルp(x|θ)を前提とした

パラメータθの真の値は決まっている vs. パラメータθは確率分布している

という争いの枠組みは、私から見ると、

同類どうしの内ゲバ

に過ぎない。

推定推測推論用モデルの外側から来るリスクに無頓着。
#統計 推定推測推論用に用意したパラメータθ付きの確率分布モデルp(x|θ)を前提とした上で、パラメータθの値は決まっているが未知なので、最悪の場合の損失を最小化するように意思決定する、というミニマックス法を使っていても、モデル自体が大外ししているリスクは考えていない。
#統計 推定推測推論用に用意したパラメータθ付きの確率分布モデルp(x|θ)において、パラメータθが確率分布していると考えて、パラメータの分布についての損失の期待値を最小化するように意思決定する、というベイズ的意思決定論を使っていても、モデル自体が大外ししているリスクは考えていない。
Read 4 tweets
8 Dec
minimal working examples抜きには曖昧過ぎて微妙に危険な感じ。よい推定、よい予測、よい意思決定の中身が不明過ぎる。

特に「意思決定」という言葉が「推定」や「予測」など任意の行動を決める意味が広い用語になっているせいで、「本当はよい意思決定を目指すべきだ」と誤解する危険性がある。続く
教科書によく書いてある意思決定論では、パラメータ付きのモデル(推定推測推論用のモデル、以下単にモデルという)の内部で「最悪の場合の最善手」(ミニマックス)や「期待リスク最小化」(事前分布を主観確率と解釈すれば主観内で計算した期待リスク最小化)を考えます。
続く。リスクの定義を決める損失函数として「推定の悪さ」「予測の悪さ」の指標にすれば「モデル内でのよい推定」「モデル内でのよい予測」が得られ、仮に「金銭的な損失」の指標にできれば「モデル内での金銭的に最適な意思決定」が得られます。

そういう話は確かに結構面白いです。続く
Read 33 tweets
8 Dec
数学がめちゃくちゃ苦手であっても「3×2だとウサギが3本耳になる」と本当に教えていることに呆れざるを得ないのですが、事情を知らない人の中には、「場面を式に表す」を「場面から数値・数量に関する式を作る」の意味だと誤解して、おかしな教え方を擁護し出すというようなことがあるように思えます。
あと、これは10年前から言っていることですが、「3×2だとウサギが3本耳になる」(算数でもならないし、理科でも国語でもならない(笑))という教え方が論外なことは、数学が苦手でも当たり前に理解できることです。

理系大学教授を持ち出すのはミスリーディング。
通常の批判では「非常識」という言葉は使い難いのですが、算数教育界の伝統が育てたおかしな教え方については例外的に「非常識」という批判は非常に適切であり、社会全体できちんと悪い意味で非常識扱いして行くべきだと思う。

数学がどんなに苦手でもダメだとすぐに分かる非常識な教え方をしている。
Read 8 tweets
7 Dec
#統計

改訂増補版:統計検定を理解せずに使っている人のために I
池田 郁男
東北大学未来科学技術共同研究センター
Published: 2019-08-01
© 2019 公益社団法人日本農芸化学会
katosei.jsbba.or.jp/view_html.php?…

いやあ、これは色々雑な解説の仕方で頭を抱えた。
#統計

改訂増補版:統計検定を理解せずに使っている人のためにII
池田 郁男
東北大学未来科学技術共同研究センター
Published: 2019-09-01
© 2019 公益社団法人日本農芸化学会
katosei.jsbba.or.jp/view_html.php?…

Welch検定で自由度を四捨五入するのはやめて!

以前にもこれ見た覚えがある。
#統計 不偏分散の平方根は母標準偏差の不偏推定量にならないことは自明。

多分それよりも要注意なのは、不偏分散は緩い条件のもとで任意のi.i.d.サンプルで母分散の不偏推定量になること。これは例外的なので要注意。

一般に不偏推定量は特定のモデル内でしか不偏推定量にならない。
Read 14 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Too expensive? Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal

Or Donate anonymously using crypto!

Ethereum

0xfe58350B80634f60Fa6Dc149a72b4DFbc17D341E copy

Bitcoin

3ATGMxNzCUFzxpMCHL5sWSt4DVtS8UqXpi copy

Thank you for your support!

Follow Us on Twitter!

:(