Tweet

黒木玄 Gen Kuroki

19 Mar, 15 tweets, 6 min read

https://twitter.com/genkuroki/status/1372834621075849222

#統計ものすごく基本的な話題

サンプルサイズNで割る標本分散とN-1で割る不偏分散を比較してみました。

#Julia言語
nbviewer.jupyter.org/gist/genkuroki…

①不偏分散の期待値は真の分散に一致し、標本分散の期待値のずれの大きさは1/Nに比例する。

②真の値との誤差の二乗の期待値は不偏分散の方が大きい。

https://twitter.com/genkuroki/status/1372834621075849222

#統計サンプル達は標準正規分布で生成しています。

横軸はサンプルサイズNの逆数。右に行くほどサンプルサイズが小さくなる。

不偏分散は期待値は真の値に一致するのですが、二乗誤差は標本分散よりも大きくなります。

不偏分散が標本分散よりも一方的に優れているという思い込みは誤りです。

#統計たとえば、あなたと私でランダムに生成されたサンプルから分散を推定するゲームをやったとします。

真の値との差の二乗が大きい方が小さい方に差に比例した罰金を支払うというルールなら、不偏分散を推定法として採用した人は負け組になってしまいます。

#統計 exactな公式もあるのですが、サンプルサイズN=10の場合に標準正規分布のサンプルの標本分散と不偏分散の分布をモンテカルロ法でプロットしてみました。続く

#統計続き

1つ前のツイートの添付画像を見ればわかるように、不偏分散も標本分散も真の値よりも小さくなる確率の方が高い。

真の値よりもずっと大きな値になることもあるので期待値が真の値に近くなるという仕組み。

不偏分散ではその仕組みが強化されて、期待値が真の値に一致することになる。

#統計続き

二乗誤差を小さくするという立場から見ると、不偏分散は真の値よりもずっと大きくなる確率を増やし過ぎているので、不偏分散の期待二乗誤差は標本分散よりも大きくなります。

#統計同様のことは、ジャックナイフ法によってバイアスを削減した場合にも起こります。

#Julia言語
nbviewer.jupyter.org/gist/genkuroki…

添付画像は、補正していない正規分布の尖度3を

G = (標本の4乗平均)/(標本の2乗平均)²

で推定した場合と

J = そのジャックナイフ法による補正

で推定した場合の比較。

#統計 G=g(X)=(標本Xの「尖度」) の期待値は真の値よりも小さくなり、ジャックナイフ法による補正J=jackknife(g, X)の期待値は真の値によく一致。

しかし、ジャックナイフ法で補正した側の期待二乗誤差は非常に大きくなります。

この場合も、不偏性を優先すると期待二乗誤差が大きくなってしまった。

#統計サンプルサイズはN=10

添付画像はGとJの分布のプロットです。

橙色のJの分布の右側のすそが太くなっていることに注目。そこが太くなっているおかげで、期待値が真の値に近付いているのですが、期待二乗誤差は大きくなってしまっています。

#統計大体において、不偏性を優先すると、推定の誤差は大きくなってしう傾向があります。

"unbiased" という文字列を見たら、「誤差は大きくなってしまうかもしれない」と疑った方が安全なようです。

この辺は統計学入門でも強調されてしかるべきことだと思いました。

#統計不偏性を犠牲にすることによって、誤差を小さくする話で有名なのは、Stein(-James)推定の話です。

その話はリッジ正則化の特別な場合になっています。

事前分布でパラメータの動きを適当に制限した方が過学習を抑制して予測精度が上がるかもしれない。今では常識的な技術の1つです。

#統計私によるStein推定のself-containedな解説が以下の場所にあります。

nbviewer.jupyter.org/github/genkuro…
Ridge正則化とStein推定量

#Julia言語によるシミュレーションのコード付き。

#統計まとめ

* 不偏性を優先すると誤差が増えるかもしれない。

* 不偏分散は標本分散よりも期待二乗誤差が大きい。

* 尖度の推定においても、ジャックナイフ法によるバイアスの抑制は期待二乗誤差を悪化させる。

* 不偏性を犠牲にして予測精度を上げる方法が現代では常識になっている。

#統計「不偏性」は座標依存。例えば分散の推定法として不偏であっても標準偏差の推定法としては不偏にならない。

不偏性は座標にも依存するものすごく強い条件。ほとんどすべての推定法は不偏ではない。

だから不偏という制限を付けて良い推定法を探すと大部分の推定法を無視することになる。

#統計ところが(少なくとも私にとってはとても)不思議なことに、統計学の文献を見ると、不偏性の条件に強くこだわったり、良い推定法を探すときに必然性のない不偏性の条件をわざわざ課していたりする。あれは全く理解できない。

この点について統計学には何かひどい黒歴史があるのだろうか？

• • •

Missing some Tweet in this thread? You can try to force a refresh

This Thread may be Removed Anytime!

Twitter may remove this content at anytime! Save it as PDF for later use!

More from @genkuroki

黒木玄 Gen Kuroki

@genkuroki

18 Mar

https://twitter.com/ryuyengineer/status/1372177005353955334

#超算数【「１セットあたりの量」と「○セット」という概念の定着を目的にあえて縛りを設けていると考えれば納得．】とか言うお馬鹿さん達が継続して出て来ることが昔からよく知られています。

かけ算順序固定強制指導が実際に有害であることの間接的な証拠とみなせると思う。続く

https://twitter.com/ryuyengineer/status/1372177005353955334

https://twitter.com/genkuroki/status/1299940520265830400

#超算数現実の子供に関しては、同じ数を含む集まりが何セットあるかの状況把握と掛け算順序マスターであることは、現場の教師の調査で関係ないことが分かっています。

そして、その教師は、関係ないことを認めた上で、掛け算順序強制指導を強化しなければいけないと主張しています。

これが現実。

https://twitter.com/genkuroki/status/1299940520265830400

https://twitter.com/genkuroki/status/1267851912566599681

#超算数掛け算順序が逆なら誤りとみなしたり、掛け算順序が逆なら理解していないとみなす行為は、算数教育の世界では100年以上の伝統を持っています。

これだけの伝統があると、掛け算順序指導が社会的に否定されると困る人達が沢山いることもよく分かる。

しかし、被害者は次世代を担う子供達。

https://twitter.com/genkuroki/status/1267851912566599681

Read 10 tweets

黒木玄 Gen Kuroki

@genkuroki

18 Mar

https://twitter.com/genkuroki/status/1372148979136294916

#Julia言語【one(x)は多くの場合にxと同じ型の1になる】

公式ドキュメント docs.julialang.org/en/v1/base/num… にもあるようにone(x)がxと違う型になる場合があります。

one(x)はxの型に関する乗法的な1になり、加法的な(次元を持つ)1が欲しければoneunit(x)を使う。

環上の加群を思い浮かべるとよいです。

https://twitter.com/genkuroki/status/1372148979136294916

#Julia言語数学の習慣では、乗法の単位元を1と書き、加法の単位元を0と書くことが多い。

Juliaでは、xと同じ型もしくは型xに関する乗法的な単位元をone(x)と書き、加法的な単位元をzeto(x)と書く習慣。

単位としての加法的な1はoneunit(x)と書かれる。

数学を知っていれば納得し易い。

#Julia言語例えば、Aが数を成分とする正方行列のとき、Juliaにおいてone(A)は単位行列になってくれます。

one(x)という書き方を知っていれば「どの型の乗法的1なのか」を型を明示せずに型の伝搬スタイルで記述できるわけですが。

数学でも「これはxが含まれる環の1です」などと言える。これと同じ。

Read 16 tweets

黒木玄 Gen Kuroki

@genkuroki

17 Mar

https://twitter.com/mrsekut/status/1372051897079631875

#Julia言語 Juliaの型について十分な理解がない段階でJuliaで型を明示的に書くと、大抵の場合ろくなことにならないし(バグの原因になる)、理解が進むと、型を明示的に書いた方が良いという考え方自体が技術的に劣っている考え方だと気付きます。

Juliaでは型を明示せずに、型の伝搬で考える。続く

https://twitter.com/mrsekut/status/1372051897079631875

#Julia言語私自身がやらかした失敗の例

① function f(x::Vector{Float64}) ～ end

のように引数の型を明示した函数を定義し、その函数を使ったプログラムが正常に動作していた。

② @ viewマクロを使った最適化を行った。

③その途端に正常に動いていたプログラムが動かなくなった！😭

続く

#Julia言語その原因は

function f(x::Vector{Float64}) ～ end

と函数の引数の型を Vector{Float64} に明示的に宣言してしまっていたことが原因です。その「@ viewによる最適化で動かなくなった」という問題は

function f(x) ～ end

に書き直せば解決しました。続く

Read 42 tweets

黒木玄 Gen Kuroki

@genkuroki

16 Mar

https://twitter.com/genkuroki/status/1371684833949192198

#Julia言語 Julia言語で10行

nbviewer.jupyter.org/gist/genkuroki…

(1/5) 二項分布モデル内の標本分布で測った95%信頼区間にモデルのパラメーター値が含まれる確率のプロット。95%以上になる。ほとんどのパラメーターで95%より真に大きい。

https://twitter.com/genkuroki/status/1371684833949192198

#Julia言語

nbviewer.jupyter.org/gist/genkuroki…

(2/5) 二項分布モデルの95%信頼区間 [CI_min, CI_max] を平面上の座標 (CI_min, CI_max) にプロット。丸の大きさはモデル内でその信頼区間が生じる確率の大きさに比例。赤の十字の左上側の領域ではパラメータの真の値が信頼区間に含まれている。

#Julia言語

nbviewer.jupyter.org/gist/genkuroki…

(3/5) 3次元のランダムウォーク

Read 54 tweets

黒木玄 Gen Kuroki

@genkuroki

16 Mar

https://twitter.com/genkuroki/status/1370028009785229312

#Julia言語

using Statistics, StatsBase
f(x) = (mean(x), geomean(x), median(x))
[∘(fill(f, n)...)((1, 1, 2, 3, 5)) for n in 30:35]
↓
6-element Vector{～}:
～
(2.0890579497368598, 2.0890579497368598, 2.0890579497368598)
～

gist.github.com/genkuroki/e69a…

xkcd.com/2435/

https://twitter.com/genkuroki/status/1370028009785229312

#Julia言語

∘(fill(f, 4)...)((1, 1, 2, 3, 5))

は

f∘f∘f∘f(1, 1, 2, 3, 5)

と同じで、∘は函数の合成なので、

f(f(f(f(1, 1, 2, 3, 5))))

と同じ意味になる。

函数fのn個の合成は

∘(fill(f, n)...)

と書ける。Juliaを超高級電卓として使うときにはこれを知っているとちょっと便利。

#Julia言語による解答例のスクショ

もとの問題文の数学的内容がほとんどそのままJuliaのコードに翻訳されていることがわかる。

難しいのはn個の函数fの合成が ∘(fill(f, n)...) と書けること。

φ(fill(f, 3)...)はφ(f, f, f) と同じ意味に、∘(f, g, h)(x,y)はf(g(h(x,y)))と同じ意味になる。

Read 6 tweets

黒木玄 Gen Kuroki

@genkuroki

16 Mar

https://twitter.com/choonggeun/status/1371499464863576065

NASAでは普通に #Julia言語を使っているようですが、日本ではどうなっているんですかね？

Juliaの良い点をNASAがどのように活かしているか分かる動画
↓

Modeling Spacecraft Separation Dynamics in Julia
Jonathan Diegelman

https://twitter.com/choonggeun/status/1371499464863576065

#Julia言語あらためてNASA JuliaLangでググったら、こんな素敵な動画も見つかりました。

The Julia Language 1.0 Ephemeris and Physical Constants Reader for Solar System Bodies

github.com/JuliaAstro/JPL…

https://twitter.com/genkuroki/status/1371084661397413888

#Julia言語 NASA関連

Pluto.jl
DifferentialEquations.jl
Optim.jl
GlobalSensitivity.jl
MonteCarloMeaurements.jl
ComponentArrays.jl
Unitful.jl

などを使っているみたい。

https://twitter.com/genkuroki/status/1371084661397413888

Read 15 tweets

Support us! We are indie developers!

This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Too expensive? Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal Become our Patreon

Thank you for your support!

Share this page!

黒木玄 Gen Kuroki

Try unrolling a thread yourself!

More from @genkuroki

黒木玄 Gen Kuroki

黒木玄 Gen Kuroki

黒木玄 Gen Kuroki

黒木玄 Gen Kuroki

黒木玄 Gen Kuroki

黒木玄 Gen Kuroki

Did Thread Reader help you today?

Like this author's thread?