#統計

改訂増補版:統計検定を理解せずに使っている人のために I
池田 郁男
東北大学未来科学技術共同研究センター
Published: 2019-08-01
© 2019 公益社団法人日本農芸化学会
katosei.jsbba.or.jp/view_html.php?…

いやあ、これは色々雑な解説の仕方で頭を抱えた。
#統計

改訂増補版:統計検定を理解せずに使っている人のためにII
池田 郁男
東北大学未来科学技術共同研究センター
Published: 2019-09-01
© 2019 公益社団法人日本農芸化学会
katosei.jsbba.or.jp/view_html.php?…

Welch検定で自由度を四捨五入するのはやめて!

以前にもこれ見た覚えがある。
#統計 不偏分散の平方根は母標準偏差の不偏推定量にならないことは自明。

多分それよりも要注意なのは、不偏分散は緩い条件のもとで任意のi.i.d.サンプルで母分散の不偏推定量になること。これは例外的なので要注意。

一般に不偏推定量は特定のモデル内でしか不偏推定量にならない。
#統計 自由度に関するこの説明も雑すぎ。たぶん、これを書いている人自身が理解していない。

線形代数の直交射影の直観があれば、直交射影先の部分空間の直交補空間の次元が添付画像の文脈での自由度になる。

katosei.jsbba.or.jp/view_html.php?…
#統計 正規分布モデルの統計学は、内積付き実⃗ベクトル空間の線形代数の微積分による書き直しになっていて、推定は部分空間への直交射影になり、その直交補空間がノイズ方向だと解釈される。
#統計 さらにややこしいことに、非常に沢山の種類がある最尤法の漸近論を基礎とするχ²検定で使うχ²分布の自由度の話もあります。

その意味での自由度は、モデルのパラメータ空間の次元が帰無仮説によって何次元下がるかを意味しています。

Wilksの定理が神。
#統計 多分、理解せずに「はじき」のように統計学的道具を使っている集団があって、その使い方があまりにもひどい場合がある現状について、十分に理解していない人が改善する仕事を任されているという構造的な問題があるのだと思う。
#統計 教える側の理解度を高めることをサポートする社会的な仕組みが必要。人にお金を出さないと多分どうにもならない。
#統計 添付画像では標準偏差の不偏推定量を求めています。ただし、標準偏差のその不偏推定量は正規分布モデル内での不偏推定量にすぎません。

不偏分散が正規分布モデル以外でも普遍的に分散の不偏推定量になるのは非常に特殊な話になります。
#統計 モデル内に現実のデータを生成している未知の分布が含まれていない場合には、そのモデル内での不偏推定量は現実には全然不偏推定量でなくなります。

推定量の不偏性は極めて強い条件であり、不偏推定法の中で最良のものを見つけても「井の中の蛙」になるかもしれません。
#統計 σのその不偏推定量は正規分布モデル内部でのみ不偏になる推定量なので、正規分布モデル外でも普遍的に母分散の不偏推定量になる不偏分散とは頑健性が大幅に違うことに注意。

「モデル内のみ不偏推定量」の不偏性は現実の統計分析では大して意味がないと個人的には思う。
#統計 特別なモデルに依存しない不偏推定量を作りたい人は「U統計量」について検索。
#統計 #Excel

えっ!びっくりしたのでググってみた。

ExcelのT.DIST関数の解説に、確かに

【分布の自由度を整数で指定します。】

と書いてありました!

統計がらみではJulua, R, Pythonしか使わないので知りませんでした。

普通はt分布の自由度は正の実数全体。

support.microsoft.com/ja-jp/office/t…
某大きな大学の某学部の統計学も専門らしい先生が「データサイエンスの教育でRは使わない方がよくてExcelを使うべきだ」と言ったという話を聞いたことがある。

めちゃくちゃまずすぎると思いました。

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with 黒木玄 Gen Kuroki

黒木玄 Gen Kuroki Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @genkuroki

8 Dec
minimal working examples抜きには曖昧過ぎて微妙に危険な感じ。よい推定、よい予測、よい意思決定の中身が不明過ぎる。

特に「意思決定」という言葉が「推定」や「予測」など任意の行動を決める意味が広い用語になっているせいで、「本当はよい意思決定を目指すべきだ」と誤解する危険性がある。続く
教科書によく書いてある意思決定論では、パラメータ付きのモデル(推定推測推論用のモデル、以下単にモデルという)の内部で「最悪の場合の最善手」(ミニマックス)や「期待リスク最小化」(事前分布を主観確率と解釈すれば主観内で計算した期待リスク最小化)を考えます。
続く。リスクの定義を決める損失函数として「推定の悪さ」「予測の悪さ」の指標にすれば「モデル内でのよい推定」「モデル内でのよい予測」が得られ、仮に「金銭的な損失」の指標にできれば「モデル内での金銭的に最適な意思決定」が得られます。

そういう話は確かに結構面白いです。続く
Read 33 tweets
8 Dec
数学がめちゃくちゃ苦手であっても「3×2だとウサギが3本耳になる」と本当に教えていることに呆れざるを得ないのですが、事情を知らない人の中には、「場面を式に表す」を「場面から数値・数量に関する式を作る」の意味だと誤解して、おかしな教え方を擁護し出すというようなことがあるように思えます。
あと、これは10年前から言っていることですが、「3×2だとウサギが3本耳になる」(算数でもならないし、理科でも国語でもならない(笑))という教え方が論外なことは、数学が苦手でも当たり前に理解できることです。

理系大学教授を持ち出すのはミスリーディング。
通常の批判では「非常識」という言葉は使い難いのですが、算数教育界の伝統が育てたおかしな教え方については例外的に「非常識」という批判は非常に適切であり、社会全体できちんと悪い意味で非常識扱いして行くべきだと思う。

数学がどんなに苦手でもダメだとすぐに分かる非常識な教え方をしている。
Read 8 tweets
7 Dec
統計量の分布をぼーっと眺める 〜中心極限定理観察〜 qiita.com/gilbert_yumu/i… #Qiita @gilbert_yumuより
【中心極限定理の可視化、また母集団によっては成り立たないことの可視化】

#統計 中心極限定理が成立しない場合や成立していても収束が遅い場合も扱っている点が非常に良い。
中心極限定理が特別に非常にうまく行く場合(ベルヌイ分布、一様分布、左右対称な分布の多く)の可視化だけを見て終わりにすると、中心極限定理による近似が小さなnで常に良くなるように誤解してしまうリスクがあると思う。

中心極限定理が成立してかつ収束が遅い場合の可視化は特に重要だと思う。
#統計 和に関する再生性と条件付き分布 qiita.com/gilbert_yumu/i… #Qiita @gilbert_yumuより

これも教育的。条件付き確率分布の計算は基本の1つ。簡単だが、非自明さのある面白い例を紹介している。匙加減が非常によい。
Read 16 tweets
7 Dec
ここ10年で得た情報から、これは非常に納得できる話。

算数教育界には100年以上前から受け継がれて来た子供を害する教え方があるという予備知識があると、教科書の記述の不味さにやっと気付けるのだが、本当にまずい記述であることの決定的な証拠は一般人購入不可の指導書を見ないと得られない。
私企業による単なる出版物なので政府が手を出せない教科書の指導書に教科書の使い方の説明を入れて、さらにその出版物を一般人購入不可&高価にすることによって、全国の小学校の先生への巨大な影響力を行使したままで、子供を害する教え方を広めることができる。

堂々とこれが行われているわけ。
子供相手のことでここまでの無茶が堂々と行われており、何十年ものあいだ完全に放置されている。

さらにそういう無茶をやる人達の後任を育てる社会的仕組みも整備されている。算数教育界伝統の非常識な教え方をマスターした人を社会的に出世させる仕組みがある。

稀に見るひどい話。
Read 4 tweets
6 Dec
以前書いた #Julia言語 版HMC(Hamiltonian Monte Carlo)のサンプルコード

ポテンシャル函数φ(x)から、確率分布p(x)=exp(-φ(x))/Zのi.i.d.サンプルを生成する方法の1つ。

60行程度しかない。 Image
#Julia言語 leapfrog法でHamiltonの正準方程式を解くので、leapfrog法のために必要な情報をLFProblem型の変数に格納し、それをHMC函数に渡すと分布p(x)=exp(-φ(x))/Zのサンプルを返してくれる。

そういうシンプルなコードになっています。

nbviewer.org/github/genkuro… Image
#Julia言語 この手の問題では、ポテンシャル函数φ(x)がパラメータに依存している場合が多いので、ポテンシャル函数はφ(x, param)の形式の函数で与える仕様になっています。

だから、HMC函数および関連の函数にはポテンシャル函数を決めるためのparamを渡す必要があります。

nbviewer.org/github/genkuro… Image
Read 16 tweets
6 Dec
#統計 目的が測度論的確率論での条件付き期待値の理解ではなく、数理統計学の場合には、E[g(X,Y)|X]のような記号を使わずに「なるべく積分表記を用いる」という方針がよいと私も思います。

渡辺澄夫『ベイズ統計の理論と方法』のような難しい本の内容でも測度論的確率論は大して重要ではない感じ。 Image
#統計 むしろ統計学で頻繁に現れる確率密度函数があるケースでの条件付き期待値や条件付き確率分布の全部積分で書く扱いを知らずに、測度論的確率論での条件付き期待値の定義を学ぶ方が不健全な勉強の仕方に思えます。

算数レベルの計算の経験抜きに整数論をいきなり勉強するようなもの。
#統計 一度

❌離散分布と連続分布の区別がうざい。確率測度で整理したい。その方針で数理統計学の教科書を徹底的に書き直す。

という悪いアイデアでノートを書き始めてみれば分かるが、統計学的に重要でない話の分量と割合が爆発します。

測度論的確率論と統計学は完全に別の分野。
Read 4 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Too expensive? Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal

Or Donate anonymously using crypto!

Ethereum

0xfe58350B80634f60Fa6Dc149a72b4DFbc17D341E copy

Bitcoin

3ATGMxNzCUFzxpMCHL5sWSt4DVtS8UqXpi copy

Thank you for your support!

Follow Us on Twitter!

:(