#統計 「真の分布」というのはジャーゴン(特定分野の特殊な言い回し)です。文字通りの意味にとってはいけない。

未知のものについての推測の勝ち目を増やすために数学を利用するためには、その未知のものとその推測方法の両方を数学的に定式化して性質を調べておく必要があります。続く
#統計 その未知のものを確率分布でモデル化するときのその確率分布を「真の分布」と呼ぶ人たちがいます。私は「未知の分布」(unknown distribution)という言い方をした方が誤解が少なくなると思っているのですが、「真の分布」というジャーゴンは結構広く普及していると思います。続く
#統計 未知のものの側のモデル化に付ける条件が少なければ少ないほど、適用できる未知のものの種類が増えるのですが、何の条件も付けないと実践的に役に立ちそうな推測を何もできなくなるので、応用先を狭めてかつ狭めすぎないように条件を付けるのが普通です。
#統計 未知のものの側を、確率分布でモデル化した途端に確率分布でモデル化することが適切でない場合には応用できなくなる。

さらに、単に確率分布でモデル化するだけではなく、データの生成法則を独立同分布確率変数列でモデル化すると、さらに適用可能範囲は狭くなります。続く
#統計 逆に言えば、独立同分布確率変数列によるモデル化が適切であるか否かを自分で判断できない人は、大学の学部レベルの統計学の結果を使う資格がない教養しか持っていないことや、他人が適切に統計学を使っているかも判断できないことを認める必要があります。続く
#統計 統計学の道具は適用条件が決まっている「精密機器」の一種であり、現実には適用可能条件が(近似的に)成立しているか否かが事前に分からない場合もあるので、色々要注意だと思う。

しかし、統計学を無視する人は、麻雀における「確率を無視する負け組」と同様の立場に立つことになります。
#統計 「未知の分布」のモデル化と言えるためには、その確率分布に付けられた条件があまり強過ぎないことも大事です。

「平均と分散を持つ任意の分布の独立同分布確率変数列」まで条件を強めても応用可能先は相当に広いままなのですが、~続く
#統計 続き~、それを「正規分布の独立同分布確率変数列」まで狭くしてしまうと、正規分布で近似できない場合には適用不可能になり、前もって正規分布で近似できることが確からしいことが分かっていない場合には分析が誤りになる可能性が増える。続く
#統計 以上で「真の分布」の説明を終えます。

注意:独立同分布確率変数列の仮定を外すと、確率分布が一定でない場合もモデル化可能なので、「真の分布が決まっていない」と言いたくなる場合についても「真の分布」も扱える可能性があります。数学的モデルの柔軟性は結構高いです。
#統計 次にパラメトリック統計の場合の推測方法について説明します。

「真の分布」=「未知の分布のモデル化」が生成するデータはある一定の確率分布の独立同分布確率変数列になっていると想定しているとします。その確率分布は未知であり、例えば正規分布であるなどと決め打ちできないものとします。
#統計 続き。独立同分布確率変数列という用語の意味が分からない人は、そもそも統計学の話題に全くついて来れないレベルの教養しかないことを認めて、教科書で勉強するしかないです。

人によっては一生理解できないレベルで難しいことの可能性もあります。一般に数学の理解は非常に大変です。

続く
#統計 未知の分布に関する有限の長さの独立同分布確率変数列X_1,…,X_nが与えられたときに、数列X_1,…,X_nからそれを生成した未知の分布についてどれだけのことをどのように推定できるかが基本問題になります。続く
#統計 よくあるパラメトリック統計では、有限個のパラメータθ_1,…,θ_dをまとめてθと書き、パラメータθでパラメトライズされた確率分布の族p(x|θ)を用いて、未知の分布に関する推測を行います。

推測用の分布族p(x|θ)は何でも構いません。続く
#統計 例えば、推測先の未知の分布が正規分布で精密に近似できそうもない場合であっても、推測用の分布族として正規分布族を用いることができます。

この辺は常に誤解されているところで、推測用に正規分布を使うことと、推測先の未知の分布が正規分布だと仮定することは異なります!
#統計 未知の分布が推測用の分布族でうまく近似できなければ、推測の誤差が大きくなるだけ。

どの程度どのような誤差を受け入れるかは目的によって変わるので、〇〇分布族を推測用のモデルとして使うことと、推測先の未知の分布が〇〇分布であると仮定することを厳密に区別した方が良いです。
#統計

推測先の未知の分布が、推測用の分布族に含まれていない場合の、推測結果がデータが増えるにしたがってどうなるかについては以下のリンク先及びそのすぐ下のツイートの添付動画を見て下さい。

これはコンピュータで遊べる話題です。

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with 黒木玄 Gen Kuroki

黒木玄 Gen Kuroki Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @genkuroki

12 Nov
#統計 渡辺澄夫『ベイズ統計の理論と方法』の読み方①は

①頻度主義とベイズ主義を分けるダメな考え方の心の中からの排除

その次は

②自分でWAICやLOOCVをコンピュータ上で計算して、各種の定理を数値的に確認するという読み方

がお勧め。具体的にはp.119の定理15のβ=1の場合を確認するべき。続く
#統計 細かい計算や証明のフォローは上の②の後の③でよいと思う。

渡辺さんの本は数学的に難しい話をしている部分が多いのですが、それ以外によく宣伝されているダメな考え方への対策になっている解説も多数含まれており、そこから入ることができます。最初はそこを読むとよいと思う→①
#統計 あと、途中の計算や証明を飛ばして読んでも、コンピュータを使える人なら自分でWAIC(W_n)やLOOCV(C_n)を自分で実装して計算できるように書いてあります。

具体的な計算例を1つも知らずに証明を読んでも無意味だと思うので、証明を読み始める前にコンピュータで計算できるようになっておくべき。
Read 13 tweets
11 Nov
#統計 尤度の簡単な例

パラメータp_1,…,p_r (どれも非負の実数で総和は1)の多項分布モデルのデータk_1,…,k_r (どれも非負の整数で総和はn)に関する尤度函数は

L(p_1,…,p_r) = (n!/(k_1!…k_r!)) p_1^{k_1}…p_r^{k_r}.

最尤法の解は

p_i = k_i/n (i=1,…,r).
#統計 多くの場合に対数尤度函数の-1倍

-log L(p_1,…,p_r) = -Σ_{i=1}^r k_i log p_i + (定数略)

の方が扱いやすい。これを Σ_{i=1}^r p_i = 1 という条件のもとで最小化するには、Lagrangeの未定乗数法を使ったり、Gibbsの情報不等式を使えば簡単である。お好きな方法でどうぞ、という感じ。
#統計 そういう易しいが「実戦的な」計算をやらないと、

* Lagrangeの未定乗数法



* Jensenの不等式 (Gibbsの情報不等式を特殊な場合に含む)

などの

これこそ神!

と言えるような素晴らしい結果を大学1年のときにすでに習っていることに気付かずに終わる可能性が高い。
Read 10 tweets
11 Nov
#統計 Kullback-Leibler情報量

D(q||p) = ∫ q(x) log(p(x)/q(x)) dx

の統計学への応用におけるq,pに関する非対称性を理解するには、Sanovの定理について学ぶに限ります。

続く
#統計 分布pに従う乱数発生で分布qをシミュレートしたときに、もしもp≠qならば、確率的に指数函数的な速さでボロが出るのですが、その速さがKullback-Leibler情報量になっているというのがSanovの定理の内容です。

だからモデル分布pで真の分布をシミュレートしたい人にとってKL情報量は基本的。
#統計 大雑把に言うと、分布pのi.i.d. X_1, X_2, … について、

(X_1,…,X_nの経験分布がqに近い確率) = exp(-n D(q||p) + o(n))

となるという結果がSanovの定理。ちょっと雑すぎる説明ですが、「qに近い」の程度の違いはo(n)の項に吸収される。

1つ前のツイートと比較すると理解が深まるはず。
Read 29 tweets
11 Nov
#統計 私のツイッターでの設定(笑)のせいでずっと見えていなかったのですが、チョー算数問題における「掛算には順序があるから、掛算には順序がある」に類似の反応があったことに気付いたので記録に残しておく。

会話する価値が無さそうに見えたので安心してミュートしました。ごめんなさい。続く ImageImage
#統計 オーバーフィッティングを防ぐために使用可能ないわゆる「正則化」「罰則項」については、数値実験すれば色々納得できることも多いのですが、平易な証明付きのシンプルなモデルをいじりたいならば、James-Stein推定について調べてみると良いと思います。
#統計 その設定はこうです。

(1) データX=(X_1,…,X_n)が未知の平均μ_0=(μ_{01},…,μ_{0n})と単位行列の分散共分散行列を持つ多変量正規分布に従ってランダムに生成されている。

(2) データから平均μ_0を推定したい。

データ中の数値の個数と推定したい数値の個数が等しいという厳しい状況。続く
Read 17 tweets
10 Nov
#統計 WAICやLOOCVも計算してくれるベイズ統計のパッケージを使ったWAICやLOOCVの変種の計算は、多くの場合にWAICの誤用になっている疑いがあります。

本当は誰かが「WAIC警察」や「LOOCV警察」をやるべきかも。
#統計 Stanに代表されるMCMCのツールを使った計算では、所謂「階層ベイズモデル」になっているのが普通です。

その場合には、予測性能(汎化性能)を評価したい予測分布の正しいWAICやLOOCVの計算にはほとんどの場合に内部パラメータでの(数値)積分が必要なはずであり、結構面倒です。
#統計 Stanに与えるモデルの情報だけで、予測分布の定義は一意に決まらないので、予測分布に関する情報も欲しければ追加の情報をコンピュータに教えてあげる必要があります。

必要な数値積分をそのままクソ重くなることが多いはずなので、汎用のソフトを作るのは難しい問題だと思う。
Read 6 tweets
9 Nov
#統計 真の分布があるという仮定はもちろん都合の良い仮定です。真の分布についてのなにがしかの仮定のもとでのみ有効な数学的道具を現実に応用する場合には、必要に応じて真の分布に関する想定も疑う必要があります。続く
#統計 これは『統計的有意性とP値に関するASA声明』 biometrics.gr.jp/news/all/ASA.p… にも書いてあることにも類似していて、何かの妥当性を疑う場合には【背後にある仮定】を全部まるっと丸ごと疑う必要があります。(もちろん、それぞれの項目ごとに疑わしさには違いがあることにも注意する。)
#統計 例えば、サイコロを何度もふってどの目がどれだけの確率で出るかを推定する場合には、通常、サイコロの出目のデータの真の生成法則は未知の分布のi.i.d.でよく近似できると想定しますが、サイコロが脆弱で振るたびにちょっとずつ壊れてしまう場合にはその想定が不適切であることは明らか(笑)
Read 11 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Too expensive? Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal Become our Patreon

Thank you for your support!

Follow Us on Twitter!