#統計 尤度の簡単な例

パラメータp_1,…,p_r (どれも非負の実数で総和は1)の多項分布モデルのデータk_1,…,k_r (どれも非負の整数で総和はn)に関する尤度函数は

L(p_1,…,p_r) = (n!/(k_1!…k_r!)) p_1^{k_1}…p_r^{k_r}.

最尤法の解は

p_i = k_i/n (i=1,…,r).
#統計 多くの場合に対数尤度函数の-1倍

-log L(p_1,…,p_r) = -Σ_{i=1}^r k_i log p_i + (定数略)

の方が扱いやすい。これを Σ_{i=1}^r p_i = 1 という条件のもとで最小化するには、Lagrangeの未定乗数法を使ったり、Gibbsの情報不等式を使えば簡単である。お好きな方法でどうぞ、という感じ。
#統計 そういう易しいが「実戦的な」計算をやらないと、

* Lagrangeの未定乗数法



* Jensenの不等式 (Gibbsの情報不等式を特殊な場合に含む)

などの

これこそ神!

と言えるような素晴らしい結果を大学1年のときにすでに習っていることに気付かずに終わる可能性が高い。
#統計 教えている側はあまりにも素晴らしい結果を教えることになっているという事実に興奮を抑えられないのだが、それだと仕事にならないので心を平静に保ちながら講義をすることになる。

面白い話をするような時間的余裕は大抵ない。
#統計 ●Lagrangeの未定乗数法

-log x は下の狭義凸な函数のなので Σ p_i = 1 という条件のもとでの停留点を見つければよい。Σ k_i = n に注意。

F = -Σ k_i log p_i + λ(Σ p_i - 1) とおく。

0 = ∂F/∂λ = Σ p_i - 1
0 = ∂F/∂p_i = -k_i/p_i + λ

は λ = n, p_i = k_i/n と同値。
#統計 ●Gibbsの情報不等式を使う方法

p_i, q_i は非負に実数でΣp_i=Σq_i=1のとき、KL情報量は非負になる(Gibbsの情報不等式):

Σ q_i log (q_i/p_i) ≧ 0.

すなわち

-Σ q_i log p_i ≧ -Σ q_i log q_i.

等号成立と p_i=q_i (∀i)は同値。続く
#統計 続き。これを q_i = k_i/n の場合に適用すると、-Σ k_i log p_i = n(-Σ(k_i/n)log p_i) が最小になる p_i は k_i/n になることがわかる。
#統計 ●Jensenの不等式⇒Gibbsの情報不等式

期待値汎函数E[ ]と下に凸な函数fについて E[f(X)] ≧ f(E[X]) (Jensenの不等式). これを

f(x)=x log x



E[g(X)] = Σ p_i g(q_i/p_i)

に適用すると、

Σ q_i log(q_i/p_i) ≧ f(Σ q_i) = f(1) = 0.

等号成立の条件は読者に任せた(笑)。
#統計 ●Jensenの不等式の証明

E[ ]は線形性と単調性(f≦g⇒E[f(X)]≦E[g(X)])とE[1]=1を満たしているとする。簡単のためfは下に凸でかつ、C²級函数であるとする。(接線が引けて、接線がf(x)以下の函数になることを保証する条件としてC²級を仮定したが、実際にはそのような条件は無用)

続く
#統計 このとき、x=μ:=E[X]におけるf(x)の接線をa(x-μ)+f(μ)と書くと、fは下に凸なので

f(X)≧a(X-μ)+f(μ).

これの両辺にE[ ]を作用させると、

E[f(X)] ≧ a(E[X]-μ)+f(μ) = f(μ) = f(E[X]). q.e.d.

注意: 期待値汎函数E[ ]に関する3つの性質だけから証明された。

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with 黒木玄 Gen Kuroki

黒木玄 Gen Kuroki Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @genkuroki

13 Nov
#統計 「真の分布」というのはジャーゴン(特定分野の特殊な言い回し)です。文字通りの意味にとってはいけない。

未知のものについての推測の勝ち目を増やすために数学を利用するためには、その未知のものとその推測方法の両方を数学的に定式化して性質を調べておく必要があります。続く
#統計 その未知のものを確率分布でモデル化するときのその確率分布を「真の分布」と呼ぶ人たちがいます。私は「未知の分布」(unknown distribution)という言い方をした方が誤解が少なくなると思っているのですが、「真の分布」というジャーゴンは結構広く普及していると思います。続く
#統計 未知のものの側のモデル化に付ける条件が少なければ少ないほど、適用できる未知のものの種類が増えるのですが、何の条件も付けないと実践的に役に立ちそうな推測を何もできなくなるので、応用先を狭めてかつ狭めすぎないように条件を付けるのが普通です。
Read 16 tweets
12 Nov
#統計 渡辺澄夫『ベイズ統計の理論と方法』の読み方①は

①頻度主義とベイズ主義を分けるダメな考え方の心の中からの排除

その次は

②自分でWAICやLOOCVをコンピュータ上で計算して、各種の定理を数値的に確認するという読み方

がお勧め。具体的にはp.119の定理15のβ=1の場合を確認するべき。続く
#統計 細かい計算や証明のフォローは上の②の後の③でよいと思う。

渡辺さんの本は数学的に難しい話をしている部分が多いのですが、それ以外によく宣伝されているダメな考え方への対策になっている解説も多数含まれており、そこから入ることができます。最初はそこを読むとよいと思う→①
#統計 あと、途中の計算や証明を飛ばして読んでも、コンピュータを使える人なら自分でWAIC(W_n)やLOOCV(C_n)を自分で実装して計算できるように書いてあります。

具体的な計算例を1つも知らずに証明を読んでも無意味だと思うので、証明を読み始める前にコンピュータで計算できるようになっておくべき。
Read 13 tweets
11 Nov
#統計 Kullback-Leibler情報量

D(q||p) = ∫ q(x) log(p(x)/q(x)) dx

の統計学への応用におけるq,pに関する非対称性を理解するには、Sanovの定理について学ぶに限ります。

続く
#統計 分布pに従う乱数発生で分布qをシミュレートしたときに、もしもp≠qならば、確率的に指数函数的な速さでボロが出るのですが、その速さがKullback-Leibler情報量になっているというのがSanovの定理の内容です。

だからモデル分布pで真の分布をシミュレートしたい人にとってKL情報量は基本的。
#統計 大雑把に言うと、分布pのi.i.d. X_1, X_2, … について、

(X_1,…,X_nの経験分布がqに近い確率) = exp(-n D(q||p) + o(n))

となるという結果がSanovの定理。ちょっと雑すぎる説明ですが、「qに近い」の程度の違いはo(n)の項に吸収される。

1つ前のツイートと比較すると理解が深まるはず。
Read 29 tweets
11 Nov
#統計 私のツイッターでの設定(笑)のせいでずっと見えていなかったのですが、チョー算数問題における「掛算には順序があるから、掛算には順序がある」に類似の反応があったことに気付いたので記録に残しておく。

会話する価値が無さそうに見えたので安心してミュートしました。ごめんなさい。続く ImageImage
#統計 オーバーフィッティングを防ぐために使用可能ないわゆる「正則化」「罰則項」については、数値実験すれば色々納得できることも多いのですが、平易な証明付きのシンプルなモデルをいじりたいならば、James-Stein推定について調べてみると良いと思います。
#統計 その設定はこうです。

(1) データX=(X_1,…,X_n)が未知の平均μ_0=(μ_{01},…,μ_{0n})と単位行列の分散共分散行列を持つ多変量正規分布に従ってランダムに生成されている。

(2) データから平均μ_0を推定したい。

データ中の数値の個数と推定したい数値の個数が等しいという厳しい状況。続く
Read 17 tweets
10 Nov
#統計 WAICやLOOCVも計算してくれるベイズ統計のパッケージを使ったWAICやLOOCVの変種の計算は、多くの場合にWAICの誤用になっている疑いがあります。

本当は誰かが「WAIC警察」や「LOOCV警察」をやるべきかも。
#統計 Stanに代表されるMCMCのツールを使った計算では、所謂「階層ベイズモデル」になっているのが普通です。

その場合には、予測性能(汎化性能)を評価したい予測分布の正しいWAICやLOOCVの計算にはほとんどの場合に内部パラメータでの(数値)積分が必要なはずであり、結構面倒です。
#統計 Stanに与えるモデルの情報だけで、予測分布の定義は一意に決まらないので、予測分布に関する情報も欲しければ追加の情報をコンピュータに教えてあげる必要があります。

必要な数値積分をそのままクソ重くなることが多いはずなので、汎用のソフトを作るのは難しい問題だと思う。
Read 6 tweets
9 Nov
#統計 真の分布があるという仮定はもちろん都合の良い仮定です。真の分布についてのなにがしかの仮定のもとでのみ有効な数学的道具を現実に応用する場合には、必要に応じて真の分布に関する想定も疑う必要があります。続く
#統計 これは『統計的有意性とP値に関するASA声明』 biometrics.gr.jp/news/all/ASA.p… にも書いてあることにも類似していて、何かの妥当性を疑う場合には【背後にある仮定】を全部まるっと丸ごと疑う必要があります。(もちろん、それぞれの項目ごとに疑わしさには違いがあることにも注意する。)
#統計 例えば、サイコロを何度もふってどの目がどれだけの確率で出るかを推定する場合には、通常、サイコロの出目のデータの真の生成法則は未知の分布のi.i.d.でよく近似できると想定しますが、サイコロが脆弱で振るたびにちょっとずつ壊れてしまう場合にはその想定が不適切であることは明らか(笑)
Read 11 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Too expensive? Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal Become our Patreon

Thank you for your support!

Follow Us on Twitter!