minimal working examples抜きには曖昧過ぎて微妙に危険な感じ。よい推定、よい予測、よい意思決定の中身が不明過ぎる。

特に「意思決定」という言葉が「推定」や「予測」など任意の行動を決める意味が広い用語になっているせいで、「本当はよい意思決定を目指すべきだ」と誤解する危険性がある。続く
教科書によく書いてある意思決定論では、パラメータ付きのモデル(推定推測推論用のモデル、以下単にモデルという)の内部で「最悪の場合の最善手」(ミニマックス)や「期待リスク最小化」(事前分布を主観確率と解釈すれば主観内で計算した期待リスク最小化)を考えます。
続く。リスクの定義を決める損失函数として「推定の悪さ」「予測の悪さ」の指標にすれば「モデル内でのよい推定」「モデル内でのよい予測」が得られ、仮に「金銭的な損失」の指標にできれば「モデル内での金銭的に最適な意思決定」が得られます。

そういう話は確かに結構面白いです。続く
用語の使い方について補足:統計学の文脈で「推定」(estimation)は「モデルのパラメータ値の決定」を意味することが多いです。「予測の悪さ」は予測分布と未知の真の分布の違いの大きさ(KL情報量がよく使われる)を意味することが多い。
補足続き。だから【現象を記述しているモデルを推定】という言い方で「推定」という言葉を使うと、「与えられたモデルのパラメータの決定」という意味での統計学的な文脈での「推定」とは全然違う意味になります。
しかし、そのようにして得られた「よい推定」「よい予測」「よい意思決定」はモデル内で得られたものに過ぎません。

モデルそのものを丸ごと入れ替えた方がよい場合のことは一切考慮に入っていない。

「よい意思決定」全般がそういうものであることには、教科書レベルで注意が必要だと思います。続く
曖昧な点をこちらが勝手に推測してこのスレッドを書いています。

「よい予測」はモデル選択の文脈でも意思決定論とは異なるスタイルで扱われています。

例えば、AICによる予測の良さ重視のモデル選択をそのような扱いの例として想定することもできます。続く
ただし、AIC(および類似の指標)はどれも、予測のよさそのものではありません。

以下、予測誤差はKL情報量で定義されているとします。

推測先の未知の分布のAICを原点に取るとAICと予測誤差の確率的揺らぎの向きは漸近的に正反対で同じ大きさになります。特に、相関係数が-1になる.続く
だから、AICが小さくなり過ぎることによってモデル選択に失敗した場合に選択されたモデルによる予測の誤差は非常に大きくなります。

これは、データが運悪く偏り過ぎていると、そのデータによる予測が大外しになることの、AICバージョンに過ぎない。

以上で紹介したリスクは交差検証でも完全に同様。
さらに、仮にモデル選択に失敗していなくても、選択肢として採用したモデルの中に十分に妥当なものが含まれているとは限らない。

ひどい失敗の可能性を原理的に排除できない。いわゆる不良設定問題になっています。

しかし、以上で述べたリスクを承知でAICや交差検証を利用すれば十分に役に立つ。
「よい意思決定」「よいモデル選択」などについて、「予測の良さは良い意思決定を意味しない」のようなことを私は言うべきではないと思っています。

各々の統計学的道具の限界が分かるように説明して、統計学がお墨付きが得られるような道具ではないことをいつでも強調するべきだと思います。続く
教科書的な統計的意思決定論入門については、以下のリンク先で紹介した渡辺澄夫さんが説明用に提示した例を自分で計算してみるとよいと思います。

それらの例(および渡辺さんの解説)を理解すれば統計学の文脈での「〇〇はよい意思決定であるとは限らない」型の言説の危険性も分かると思います。
この話題では曖昧な言葉に頼るのは危険で、minimal working examples を必ず示して、議論にする必要があると思う。
私が本心から統計的意思決定論を面白がっていることについては以下のリンク先から、対戦型推定ゲームに関するスレッド群を見てください。

どんなに面白いものであっても、実践的に使う場合には要注意。
AICなどと真の予測誤差が正反対の向きに同じ大きさで揺らぐことの最も易しい場合の確認

nbviewer.org/gist/genkuroki…
Bernoulli分布モデル

Bernoulli分布モデル(二項分布モデル)という最も易しいモデルで色々計算し尽くすのは非常に教育的だと思う。上記の対戦型推定ゲームもそういう主旨。
#統計 グラフに読み方

nはサンプルサイズで、wはサンプルを生成するベルヌイ試行のパラメータ。w=0.4(成功確率0.4)にしている。

横軸のkはn回中の成功回数。横軸は確率でスケールしてあるので、出やすいkの値の周辺の目盛りの幅は大きくなっている。n=100, w=0.4なので、k=400で幅は最大。続く
#統計 青線は、各データkごとにモデルから決まる予測分布の予測誤差。青線の値の正確な定義は,予測分布とw=0.4の真の分布のKL情報量の2n倍である。

予測誤差が最小になるのはデータがk=400の場合で、そこからずれるほどデータとモデルによる予測誤差は大きくなる。(これは当然そうなるべき結果)続く
#統計 橙破線は、上段の最尤法の場合はAICで、下段のベイズ法の場合はWAICの値。ベイズ法ではLOOCVの値もプロットしているが、この場合にWAICとほぼぴったり一致している。

ただし、それらの原点をw=0.4の真の分布のAICやWAIC, LOOCVに設定してプロット。値は予測誤差にスケールを合わせてある。
#統計 AICやWAICやLOOCVは「それらの値が小さなモデルを選択する」という形式で使われる。それさえ知っていればひとまずそれらの定義を知っている必要はない。

橙破線は真の分布のそれらの値を原点にとってプロットしているので、

橙破線の値 > 0 ⇔ w=0.4に対応する真の分布モデルの側が選択される
#統計

橙破線の値 > 0 ⇔ w=0.4に対応する真の分布モデルの側が選択される

でかつ、パラメータwが固定されていないモデルよりも、真の分布モデルを選択することは正しいモデル選択なので

モデル選択に失敗 ⇔ 橙破線の値 < 0

です。左右の端でモデル選択に失敗する。
#統計 データからパラメータを推定すると、データが運悪く偏り過ぎている場合に何が真に正しいかの判断を間違ってしまう、という当たり前のことが、AICなどの情報量基準を使っても起こることが以下のグラフの橙破線によって示されています。
#統計 あと、ベルヌイ試行のようなシンプルなモデルを使った推定推測推論では、最尤法を使ってもベイズ法を使っても十分nが大きければ違いがないことも、グラフの上段と下段を比較すれば分かります。
#統計 さらに未知である真の予測誤差の青線とAICなどの情報量基準の確率的揺らぎの向きが正反対になっていることもグラフからひと目でわかります。

それにも関わらず、84%程度の確率で真のモデルの選択に成功する理由は青線と橙破線の期待値(1になる)が一致しているからである。
#統計 真のモデルの選択に失敗する両端の「橙破線 < 0」の部分では、そのとき選択されるモデルの予測誤差(青線)は非常に大きくなります。

モデル選択に失敗した場合の選択されたモデルの予測分布の予測誤差は一般似大きな値になります。
#統計 以上の説明ではAICなどの定義の説明を略しましたが、適当な教科書で定義を確認すれば、ベルヌイ分布モデルは易しいモデルなので自力で以上と同じ結果を得ることはそう難しくないと思います。

#Julia言語 でのソースコード↓
nbviewer.org/gist/genkuroki…
私は例によって #Julia言語 で計算したのですが、ベルヌイ分布モデルの場合には各種の量に公式を作れるので、計算自体は非常に易しく、添付画像のように横軸を確率でスケールすることなどに大部分の時間を取られました。

視覚化の作業は多くの場合に重くなることが多い。

nbviewer.org/gist/genkuroki…
#統計 私がAICなどの情報量規準に関する解説を見つけた場合には、まずこのグラフに矛盾しているようなことを言っていないかどうかを確認しています。

AICがそのまま予測の良さを表しているかのごとくの解説は厳しくトンデモ扱いされるべきです。不良設定問題をなめるな。

nbviewer.org/gist/genkuroki…
#統計 繰り返し:AICがそのまま予測の良さを表しているかのごとくの解説は厳しくトンデモ扱いされるべき。

グラフを見れば分かるように、データが偏るとAICは小さくなり、予測誤差は大きくなります。

それにも関わらず役に立つ道具である、のように考えないとまずい。
#統計 AICなどの情報量規準の値が、データが偏ると(真の分布のAICを原点に取ったとき)小さくなる理由も説明しておきましょう。

AICは予測分布の尤度が大きくなると小さくなるように定義されています。

実はそのことからほぼ自明にデータが偏るとAICは小さくなることが出ます。続く
#統計

予測分布の尤度は「予測分布のデータへの適合度」です。

だから、データが偏っていると、データを生成した真の分布の尤度は小さくなり(真の分布のデータへの適合度は下がり)、データに合わせてパラメータを決めた予測分布の尤度は上がります。
#統計 だから、パラメータを固定していないモデルのAICからパラメータの値が固定されている真の分布のモデルのAICを引いて得られる値は、データが偏ると小さくなります。

尤度が分布のデータへの適合度だと知っていれば自明にそうなることがわかります。
#統計 尤度が「尤もらしさ」でも「証拠の強さ」でもなく、単に「モデルの確率分布のデータの数値への適合度」の確率論的指標に過ぎないという知識は、特にAICなどによるモデル選択の仕組みを理解するために必須の予備知識になります。
#統計 尤度などに関する基礎知識をおさえていれば、特別に複雑な数学的議論を経由することなく、AICの重要な性質を定性的にかつ直観的に納得できるようになります。

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with 黒木玄 Gen Kuroki

黒木玄 Gen Kuroki Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @genkuroki

9 Dec
#統計

⭕️正規分布に従う母集団から標本を無作為に取ってきてそのサイズと平均と不偏分散から95%信頼区間を求めた時に、その区間の中に95%の確率で母平均が含まれる。

は正しいです。ただし、確率的に揺らぐのは標本や信頼区間の側で、母平均は固定されています。続く
#統計

❌正しくは、「母集団から標本を無作為に取ってきて、そのサイズと平均と不偏分散から95%信頼区間を求める、という作業を100回やったときに、95回はその区間の中に母平均が含まれる」という意味です。

は誤り。「正しくは」と訂正しようとしている所が単純に間違っています。訂正は無用。続く
#統計 「95%信頼区間の95%は確率ではなく、割合である」という信頼区間の定義に反する自明に間違っている主張をわざわざ広めて大恥をかいている人たちは一体どういうつもりなのか?

詳しくは私のツイログを参照

twilog.org/genkuroki/sear…
Read 12 tweets
8 Dec
#統計 せっかく作ったので教育用のノートブックを放流

#Julia言語
nbviewer.org/github/genkuro…

二項分布のある種の極限でPoisson分布が得られる(添付画像③④)のと同じように、負の二項分布のある種の極限でガンマ分布が得られる(添付画像①②)。 ImageImageImageImage
#統計 r=3, p=1/(5N)の負の二項分布を1/N倍でスケールして得られる分布のcdfはN=100でα=3, θ=5 のガンマ分布のcdfにほぼぴったり一致している。

離散分布と連続分布の比較は累積確率分布函数(cdf)のプロットで比較すると楽です。

#Julia言語
nbviewer.org/github/genkuro… Image
#統計 この極限はそれぞれの分布の意味が分かっていれば「当然そうなる」と思える類のものです。
Read 4 tweets
8 Dec
#統計 推定推測推論用に用意したパラメータθ付きの確率分布モデルp(x|θ)を前提とした

パラメータθの真の値は決まっている vs. パラメータθは確率分布している

という争いの枠組みは、私から見ると、

同類どうしの内ゲバ

に過ぎない。

推定推測推論用モデルの外側から来るリスクに無頓着。
#統計 推定推測推論用に用意したパラメータθ付きの確率分布モデルp(x|θ)を前提とした上で、パラメータθの値は決まっているが未知なので、最悪の場合の損失を最小化するように意思決定する、というミニマックス法を使っていても、モデル自体が大外ししているリスクは考えていない。
#統計 推定推測推論用に用意したパラメータθ付きの確率分布モデルp(x|θ)において、パラメータθが確率分布していると考えて、パラメータの分布についての損失の期待値を最小化するように意思決定する、というベイズ的意思決定論を使っていても、モデル自体が大外ししているリスクは考えていない。
Read 4 tweets
8 Dec
数学がめちゃくちゃ苦手であっても「3×2だとウサギが3本耳になる」と本当に教えていることに呆れざるを得ないのですが、事情を知らない人の中には、「場面を式に表す」を「場面から数値・数量に関する式を作る」の意味だと誤解して、おかしな教え方を擁護し出すというようなことがあるように思えます。
あと、これは10年前から言っていることですが、「3×2だとウサギが3本耳になる」(算数でもならないし、理科でも国語でもならない(笑))という教え方が論外なことは、数学が苦手でも当たり前に理解できることです。

理系大学教授を持ち出すのはミスリーディング。
通常の批判では「非常識」という言葉は使い難いのですが、算数教育界の伝統が育てたおかしな教え方については例外的に「非常識」という批判は非常に適切であり、社会全体できちんと悪い意味で非常識扱いして行くべきだと思う。

数学がどんなに苦手でもダメだとすぐに分かる非常識な教え方をしている。
Read 8 tweets
7 Dec
統計量の分布をぼーっと眺める 〜中心極限定理観察〜 qiita.com/gilbert_yumu/i… #Qiita @gilbert_yumuより
【中心極限定理の可視化、また母集団によっては成り立たないことの可視化】

#統計 中心極限定理が成立しない場合や成立していても収束が遅い場合も扱っている点が非常に良い。
中心極限定理が特別に非常にうまく行く場合(ベルヌイ分布、一様分布、左右対称な分布の多く)の可視化だけを見て終わりにすると、中心極限定理による近似が小さなnで常に良くなるように誤解してしまうリスクがあると思う。

中心極限定理が成立してかつ収束が遅い場合の可視化は特に重要だと思う。
#統計 和に関する再生性と条件付き分布 qiita.com/gilbert_yumu/i… #Qiita @gilbert_yumuより

これも教育的。条件付き確率分布の計算は基本の1つ。簡単だが、非自明さのある面白い例を紹介している。匙加減が非常によい。
Read 16 tweets
7 Dec
#統計

改訂増補版:統計検定を理解せずに使っている人のために I
池田 郁男
東北大学未来科学技術共同研究センター
Published: 2019-08-01
© 2019 公益社団法人日本農芸化学会
katosei.jsbba.or.jp/view_html.php?…

いやあ、これは色々雑な解説の仕方で頭を抱えた。
#統計

改訂増補版:統計検定を理解せずに使っている人のためにII
池田 郁男
東北大学未来科学技術共同研究センター
Published: 2019-09-01
© 2019 公益社団法人日本農芸化学会
katosei.jsbba.or.jp/view_html.php?…

Welch検定で自由度を四捨五入するのはやめて!

以前にもこれ見た覚えがある。
#統計 不偏分散の平方根は母標準偏差の不偏推定量にならないことは自明。

多分それよりも要注意なのは、不偏分散は緩い条件のもとで任意のi.i.d.サンプルで母分散の不偏推定量になること。これは例外的なので要注意。

一般に不偏推定量は特定のモデル内でしか不偏推定量にならない。
Read 14 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Too expensive? Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal

Or Donate anonymously using crypto!

Ethereum

0xfe58350B80634f60Fa6Dc149a72b4DFbc17D341E copy

Bitcoin

3ATGMxNzCUFzxpMCHL5sWSt4DVtS8UqXpi copy

Thank you for your support!

Follow Us on Twitter!

:(