#統計 その引用はページ全体に拡張した方が意図がくみとり易いと思います。

x_1,…,x_nの平均は差の二乗和 Σ (x_i - a)² を最小にするaとして特徴付けられ、中央値(一般に一意に決まらない)は差の絶対値の和 Σ |x_i - a| を最小にするaとして特徴付けられます。

mext.go.jp/content/140707…
#統計 私が、正直、理解できないのは、

【データの分布が非対称形の場合】には【代表値として平均値より中央値のほうが適切】である

という主張。

全体の平均を知りたい場合には平均値を知りたいし、順位的に真ん中の値を知りたい場合には中央値を知りたい(トートロジー)なら理解できるが、~続く
#統計 続き~、【データの分布が非対称形の場合】に【代表値として平均値より中央値のほうが適切】であるという主張は理解できない。

分布の非対称性をどこで使っているの?

中央値には左右の非対称性をケアする機能はありません。
#統計 例えば、年収の分布について、「仮に平等に再分配を行えば一人あたりの取り分は幾らになるか」を知りたい人にとっては平均値の値が必要だし、「年収の全体での順位」を気にする人には中央値の情報が役に立ちます。

どちらか片方が一方的にもう一方より優れているわけではない。
#統計 データの平均と分散の計算が正規分布によるデータの分布の最良フィッティング(所謂最尤法)と同値であるのと同じように、中央値および中央値との差の絶対値の平均の計算はLaplace分布によるデータの分布の最良フィッティングになっています。

Laplace分布も左右対称な分布。
#統計 「平均値より中央値の方が外れ値に強い」は私も正しいと思いますが、「分布が左右非対称ならば平均値よりも中央値の方がよい」という主張は根拠薄弱だと思う。

左右非対称なデータの分布の代表値に、左右の非対称性を測っている統計量を入れておくべきだという意見なら理解できる。
#統計 統計学のよく見る教えの中には「それって根拠あるの?」と感じられるものが多数あって、「それをそのまま次世代に伝えることは社会的に負の貢献になるのではないか?」と感じられることが実に多い。
#統計 関連の話題

「2×2の分割表のχ²検定は正確なFisher検定の近似なので、特に小サンプルではχ²検定ではなくFisher検定を使うべきである」のようによく教えられているようですが、昔からなぜかそう教えられているだけで、コンピュータで確認するとひどいデタラメであることが分かる。
#統計 2×2の分割表の独立性検定に関するデタラメは1970年代以降にきちんと正式に出版された文献で指摘されているのだが、ノーダメージの「無敵な人達」が堂々と居座っていたりする。
#統計 みんな使っている統計ソフトでも、表示されるP値と信頼区間のあいだに整合性がないことが結構普通。

#R言語 の binom.test と fisher.test はそのような典型例。fisher.test については以下のリンク先スレッドを参照。
#統計 箱ひげ図に関する添付動画は

autodesk.com/research/publi…
Same Stats, Different Graphs: Generating Datasets with Varied Appearance and Identical Statistics through Simulated Annealing

より。

箱ひげ図が同じデータで全然違うものを幾らでも作れることを示す動画(笑)
#統計 同ブログ記事

autodesk.com/research/publi…

では、代表地を変えずにデータを好きな形に変える方法が解説されている。添付動画はその作品の1つ。素晴らしい!

代表値による要約によってもとのデータの情報がどれだけ失われるかを知っていることは非常に重要だと思います。
#統計

「外れ値」の意味はケースバイケースで違う。

mext.go.jp/content/140707… の同ページ(添付画像1)の添付画像2の部分のプロットで箱ひげ図を使っているが、現代的には添付画像3のようなプロットが普通だと思う。

箱ひげ図使用へのこだわりは異様な感じ。
#統計

mext.go.jp/content/140707…
高等学校学習指導要領解説 平成30年7月

条件付き確率の定義を書き直しただけの自明でつまらない(知らなくても自然に使えないと困るレベルで自明な)結果に過ぎない「ベイズの定理」に「主観確率を計算する」ものとして不当な権威を与えているクズのような説明がある。
#統計 半可通のお馬鹿さん達が、「ベイズの定理」という自明でつまらない定理について、「ベイズ統計における主観確率の計算で使うから重要だ」と高校生に教えて、社会的に負の貢献をしまくる未来が見える。

モンティホール問題のような自明な確率計算を「ベイズ統計」で説明するバカも増えるだろう。
#統計 真の問題は、すでに、モンティホール問題について「主観確率」「ベイズ統計」という用語を使って説明して恥じないお馬鹿さんが普通に沢山いること。

確率がからむゲームをやっている人がノータイムで計算する易しい確率計算に馬鹿げた理屈を付けて知的だと勘違いしている奴らがいる。
#統計

このツイートの添付動画は autodesk.com/research/publi… より

動画では2次元の多変量正規分布モデルの尤度函数が不変に保たれています。(特に2本の回帰直線も保たれている)

動画は「データとモデルの尤度函数による要約」によってどれだけの情報が失われるかに関する印象的な例になっています。
#統計 尤度函数のプロットの例については以下のスレッドを参照

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with 黒木玄 Gen Kuroki

黒木玄 Gen Kuroki Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @genkuroki

15 Nov
#統計

「ベイズだとサンプルサイズ設計は必要ない」とか「尤度原理に基くベイズ統計ならp-hackingのような問題は生じない」とか、危険なことを言う人達がいて頭が痛い。

ベイズ統計は魔法じゃない。

そういうおかしなことを言う人達は無視して、尤度函数を地道にプロットして遊ぶ方が有益😊 Image
#統計 仮にデータを生成している真の確率法則が決まっていても、データは確率的に揺らぎます。データが運悪く偏っているリスクが常にある。

データを生成している真の確率法則がないとか決まっていないなら、もっと状況は悪くなる。データが何の情報を拾っているのか自体を明瞭にしないとダメ。
#統計 添付画像は標準正規分布のサイズ10のサンプル(←確率的に揺らぐ)に関する正規分布モデルの尤度函数のプロット。中央のシアンのドットは標準正規分布の平均と標準偏差。

ランダムに生成されたサンプル(データ)ごとに異なる尤度函数が得られる。

gist.github.com/genkuroki/8a5b… Image
Read 35 tweets
14 Nov
#統計 「伝統的な統計学」について、Fisher's exact testに関わるゴタゴタもウンザリさせられるような事態になっている。

* 2×2の分割表のχ²検定はFisher検定の近似に過ぎないので、可能ならば正確なFisher検定の方を使うべきだ(特に度数が小さい場合には)。

このデタラメを他人に教える人が多過ぎ。
#統計 一応念のためため述べておきますが、私は統計学についてはど素人。

そして、数学に関係した事柄については「教科書に書いてある」とか「査読論文に書いてある」のような事実を正しいことの証拠に挙げる人達を常日頃から「権威に基づいて正しさを判定するろくでもない奴らだ」と言っています。
#統計

⭕️2×2の分割表のχ²検定の方法をサンプルサイズが大きな場合のFisher検定の近似によって導出できる。

という主張は正しいです。しかし、

❌χ²検定はFisher検定の近似としてしか導けない。
❌Fisher検定は正確である。
❌χ²検定の誤差をFisher検定との違いで測るのが正しい。

はどれも誤り。
Read 41 tweets
13 Nov
#統計 「真の分布」というのはジャーゴン(特定分野の特殊な言い回し)です。文字通りの意味にとってはいけない。

未知のものについての推測の勝ち目を増やすために数学を利用するためには、その未知のものとその推測方法の両方を数学的に定式化して性質を調べておく必要があります。続く
#統計 その未知のものを確率分布でモデル化するときのその確率分布を「真の分布」と呼ぶ人たちがいます。私は「未知の分布」(unknown distribution)という言い方をした方が誤解が少なくなると思っているのですが、「真の分布」というジャーゴンは結構広く普及していると思います。続く
#統計 未知のものの側のモデル化に付ける条件が少なければ少ないほど、適用できる未知のものの種類が増えるのですが、何の条件も付けないと実践的に役に立ちそうな推測を何もできなくなるので、応用先を狭めてかつ狭めすぎないように条件を付けるのが普通です。
Read 16 tweets
12 Nov
#統計 渡辺澄夫『ベイズ統計の理論と方法』の読み方①は

①頻度主義とベイズ主義を分けるダメな考え方の心の中からの排除

その次は

②自分でWAICやLOOCVをコンピュータ上で計算して、各種の定理を数値的に確認するという読み方

がお勧め。具体的にはp.119の定理15のβ=1の場合を確認するべき。続く
#統計 細かい計算や証明のフォローは上の②の後の③でよいと思う。

渡辺さんの本は数学的に難しい話をしている部分が多いのですが、それ以外によく宣伝されているダメな考え方への対策になっている解説も多数含まれており、そこから入ることができます。最初はそこを読むとよいと思う→①
#統計 あと、途中の計算や証明を飛ばして読んでも、コンピュータを使える人なら自分でWAIC(W_n)やLOOCV(C_n)を自分で実装して計算できるように書いてあります。

具体的な計算例を1つも知らずに証明を読んでも無意味だと思うので、証明を読み始める前にコンピュータで計算できるようになっておくべき。
Read 13 tweets
11 Nov
#統計 尤度の簡単な例

パラメータp_1,…,p_r (どれも非負の実数で総和は1)の多項分布モデルのデータk_1,…,k_r (どれも非負の整数で総和はn)に関する尤度函数は

L(p_1,…,p_r) = (n!/(k_1!…k_r!)) p_1^{k_1}…p_r^{k_r}.

最尤法の解は

p_i = k_i/n (i=1,…,r).
#統計 多くの場合に対数尤度函数の-1倍

-log L(p_1,…,p_r) = -Σ_{i=1}^r k_i log p_i + (定数略)

の方が扱いやすい。これを Σ_{i=1}^r p_i = 1 という条件のもとで最小化するには、Lagrangeの未定乗数法を使ったり、Gibbsの情報不等式を使えば簡単である。お好きな方法でどうぞ、という感じ。
#統計 そういう易しいが「実戦的な」計算をやらないと、

* Lagrangeの未定乗数法



* Jensenの不等式 (Gibbsの情報不等式を特殊な場合に含む)

などの

これこそ神!

と言えるような素晴らしい結果を大学1年のときにすでに習っていることに気付かずに終わる可能性が高い。
Read 10 tweets
11 Nov
#統計 Kullback-Leibler情報量

D(q||p) = ∫ q(x) log(p(x)/q(x)) dx

の統計学への応用におけるq,pに関する非対称性を理解するには、Sanovの定理について学ぶに限ります。

続く
#統計 分布pに従う乱数発生で分布qをシミュレートしたときに、もしもp≠qならば、確率的に指数函数的な速さでボロが出るのですが、その速さがKullback-Leibler情報量になっているというのがSanovの定理の内容です。

だからモデル分布pで真の分布をシミュレートしたい人にとってKL情報量は基本的。
#統計 大雑把に言うと、分布pのi.i.d. X_1, X_2, … について、

(X_1,…,X_nの経験分布がqに近い確率) = exp(-n D(q||p) + o(n))

となるという結果がSanovの定理。ちょっと雑すぎる説明ですが、「qに近い」の程度の違いはo(n)の項に吸収される。

1つ前のツイートと比較すると理解が深まるはず。
Read 29 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Too expensive? Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal Become our Patreon

Thank you for your support!

Follow Us on Twitter!