#統計

正確な説明にこだわっているようなのであえてコメント。

線形回帰でこだわるべき条件は「残差が正規分布」よりも「残差が独立同分布」の方です。

残差が非正規分布のi.i.d.のときの線形回帰は、非正規母集団のt検定と同じようにうまく行ったり、行かなかったりします。詳しい解説に続く。
#統計 例で説明します。

まず、残差がi.i.d.ではないが、残差全体は正規分布に従う場合があることの説明。

添付画像がそのような場合の例になっています。

データの散布図(青点達)を見ると、この場合には単純な線形回帰の適用が不適切であることは明らか。続き#

nbviewer.org/github/genkuro… Image
#統計 この例は回帰直線を2本にする必要があります。

1本の回帰直線に関する残差の値全体の分布は正規分布になります。

添付画像①から残差の分布がxへの依存性が分かる。

添付画像②はxを無視すると残差全体は正規分布になることの確認。(理論的にそうなることも確認済み)

続く ImageImage
#統計 2本の回帰直線を使ったフィッティングの結果。

この場合に、データ全体の様子を見ずに、1本の回帰直線の残差の数値の分布だけを見ると「よし!正規分布になっているっぽい!大丈夫!」と誤解してひどいことになります。

残差が非正規分布のi.i.d.の場合の話に続く Image
#統計 残差が非正規分布のi.i.d.に従う場合は、観測されていない説明変数にyが非線形に依存している場合には起こり得ます。

そういう場合にも線形回帰の数学的仕組みは、nが十分大きいならうまく働いてくれる可能性が高い。

だから、「残差が正規分布」という条件を強調するのは厳密には誤り。続く
#統計 これは、中心極限定理によって、t検定を非正規母集団に適用しても多くの場合にうまく行くことの拡張になっている。

線形回帰でも、独立同分布な残差が正規分布に従っていなくても、拡張された中心極限定理によって、多くの場合にうまく行く。

こういうことは自分で数学的に考えれば分かる。
#統計 例で説明します。

添付画像①の非正規分布(期待値は0)」に独立に残差 uᵢ が従うと仮定します。

データは yᵢ = 1 + xᵢ + uᵢ で作る。

そのデータに通常の最小二乗法を適用すると添付画像②の結果が得られる。残差は全然正規分布に従っていないですが、回帰係数の推定はうまく行っている。 ImageImage
#統計 以上の設定で、データを大量に生成し、最小二乗法で求めた回帰係数達の値をプロットすると、添付画像のようになります。

その分布は、理論的にその分布が漸近する先の2変量正規分布でよく近似されていることもわかります。

ただしこれはn=1000の場合。

nが20だと誤差が見えるようになります。 Image
#統計 n=20, 40, 100の場合

このように、i.i.d.の残差が正規分布に従っていなくても、最小二乗法で求めた回帰係数の分布は(拡張された)中心極限定理によって多変量正規分布で近似されるようになります。 ImageImageImage
#統計 以上では、xの1次函数への線形回帰(最小二乗法)を扱いましたが、xの非線形函数への線形回帰にも以上の結果はそのまま拡張されます。

別のスレッドでちょっと触れた「i.i.d.の直交射影に関する中心極限定理」に帰着できます。

#Julia言語 ソースコード

nbviewer.org/github/genkuro…
#統計 以上で述べたことは、特別にそれについて書かれた文献を探さなくても、

中心極限定理を証明の粗筋込みで理解

していてかつ

最小二乗法が直交射影であることを理解

していれば、その場で自分で考えれば分かることです。

文献の権威に頼る必要はない。
#統計 yがx₁とx₂に依存しているときに、yのデータをx₁だけに回帰すると、残差の分布がi.i.d.だが全然正規分布にならない場合
#統計 もちろん、最尤法の漸近論を使ってもよいですが、線形回帰ごときでそれを使うと相対的に難しい結果を使って、非常に易しい結果を示すような感じになってしまう。
#統計 念の為のいつもの注意。

私は統計学についてはど素人です。
#統計 さらに補足

残差が非正規分布のi.i.d.であっても、nが十分に大きいなら、t分布はほぼ標準正規になるので、t分布を使って求められた線形回帰の(回帰直線(一般には回帰曲線)の)信頼区間の誤差も小さくなります。

予測区間の側については残差の非正規性に注意を払う必要がある。
#統計 補足。xの分布は正規分布。そのとき残差の値全体が正規分布になることは

* 独立な正規分布の和も正規分布(これはラフな言い方、注意)
* 正規分布の平均値μに関する正規分布での平均も正規分布

から出ます。

線形回帰可能な2つの群のデータが混じっている場合
#統計 このスレッドを書いて再確認できたことは

 データの視覚化の重要性

および

 データの視覚化と解釈にはかなりの知識と理解力が必要なこと。

適切な視覚化のためにはモデルに関する理解が必要。単にグラフを描いて目で確認するだけのシンプルな作業ではない。もっと複雑なことをやっている。
#統計 説明用の例は、2次元(や3次元)のグラフを描けばすぐに分かるものを作るのですが、説明変数がたくさんある場合には、何をどのように視覚化すればモデルの失敗の程度を見ることができるかはずっと難しくなります。
#統計 残差の分布がxを動かしたときに独立同分布になっていそうかどうかの、(x, 残差)の散布図での視認による確認は一般に困難です(xの分布が一様分布も場合は例外的)。

残差y-ŷの分布がxによらないのですが、添付画像の右上の散布図を見てもそうだと分からない。続く Image
#統計 そこで、kernel density 法で残差 y - ŷ のxに関する条件付き確率分布を推定して、ヒートマップでプロットしたものを追加してみました。概ね、条件付き確率分布がxにほぼよらないことが分かる。

nが小さいとこの辺の判断はさらに難しくなる。

#Julia言語

github.com/genkuroki/publ… Image
#統計 実践的な統計学の適用はほぼ常に不良設定問題(与えられたデータだけでは信頼できる答えを出すことが不可能な問題)なので、データ以外の分野固有の特別な知識群で補強してやる必要が常にあると思います。

統計分析の結果を科学的に信頼できる客観的な判断だと安易に思ってしまうのはまずい。
#統計 あと、

❌最小二乗法をBLUE(最良線形不偏推定量)だという理由で最良の推定法だと考える

のも誤りです。

ほとんどに推定法は「不偏」という超絶強い条件を満たしません(し、線形でもない)。

BLUEは狭い世界での最強=「地元で最強」なだけ。

より適切なモデルによる推定法を常に考えるべき。
#統計 このスレッドで使っている #Julia言語 のコードを更新した。

github.com/genkuroki/publ… ImageImage
#統計 大事なことなので、再度強調。

添付画像のように、(x, y-ŷ) = (x, 残差) の散布図を見ても、残差の分布がxに依存しているか否かはよくわかりません。分からない理由はこの場合にはxの分布が一様分布でないからです。

xごとの残差の分布を見て比較する必要がある。続く Image
#統計 添付画像は上の場合に、xで条件づけたときの残差の条件付き確率分布をカーネル密度法で推定した結果のヒートマップです。

これだと、横方向に似た分布が並んでいるように見える。

n=1000でもこれだけ粗い。nが小さいとよく分からなくなる。 Image
#統計 iidの残差が正規分布でない場合の、データ達からは推定した回帰係数達の散布図とヒストグラム。

mvnormalapprox_true(~)は中心極限定理に基く、回帰係数の推定量の分布の漸近先の2変量正規分布。

fit(~)は実際の分布に最良適合する2変量正規分布。

ほぼ一致。

github.com/genkuroki/publ… Image
#統計 最小二乗法による回帰係数の推定は点推定に過ぎず、統計学のイロハの1つは

⭕️点推定値だけを報告してはいけない。

です。

⭕️点推定値の誤差の大きさの見積もり(例えば区間推定)の結果も報告するべき

です。1つ上のツイートの結果はそのために役に立ちます。続く
#統計 区間推定には多くの場合に正規分布近似を使います。

上の方で紹介した計算例は、iidの残差が正規分布にしたがっていなくても、回帰係数の推定量の分布は中心極限定理が効いてくれて、区間推定が近似的に可能になる場合。

BLUE云々よりもこういう話の方が実践的に重要だと思います。
#統計 本当に見たいのは条件付き確率分布の情報であるときには、単純に散布図を見ても条件付き確率分布の様子は分からないことに注意するべき。

残差の分布を確認するときには、まさにそういう状況になるので、この点はもっと強調されるべきだと思います。(だから繰り返す述べている。)
#統計 知りたい情報をグラフを描いて得るためには、たくさんのことを理解していてかつ、必要なグラフを描くためのコードを自分で書けるコンピュータに関するスキルも必要。

だから、相当に複雑で興味深い話題になると思います。

みんなで語ることによって社会的にノウハウを蓄積するべき事柄。
#統計 このスレッドを読んで、「あれ?残差がiidであることではなく、中心極限定理(の拡張)が成立していることの方が本質的じゃね?」と思った人は鋭いです。

回帰係数の推定量の分布が、中心極限定理(の拡張)によって多変量正規分布で近似されていれば、回帰係数の区間推定が可能になる。
#統計 ただし、一般的な中心極限定理もしくはその拡張による正規分布近似はn→∞で精密になることを言っているだけなので、実際に扱うnでの近似の良さの推測では「どのような場合にどれだけ中心極限定理による正規分布近似の精度が悪化するか」について理解しておく必要があります。これは結構難しい。

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with 黒木玄 Gen Kuroki

黒木玄 Gen Kuroki Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @genkuroki

Feb 22
#統計 speakerdeck.com/taka88/pzhi-fa… のp.7からp.8への流れは、natureの記事の内容を誤解させるような、よろしくない解説の仕方だと思いました。

「差がない」という特別な帰無仮説の検定だけで勝負を決めようとすることへの批判をP値そのものへの批判とみなすことは、よく見る杜撰な考え方です。続く ImageImage
#統計 実際、natureの記事 nature.com/articles/d4158… ではcompati{ble,bility}が重要キーワードになっており、P値が

データ、モデル、パラメータ値のcompatibility(相性の良さ、両立性)の指標の1つ

とみなされることを詳しく説明しています。

この部分に触れずにこの記事を引用しても無意味。続く Image
#統計 natureのその記事を読んでいるならば、P値のcompatibilityとしての解釈について知り、添付画像のように、ダメな考え方と正しい考え方を区別できるようになっているはずなのです。

否定するべき対象にP値そのものが含まれていないことに注目!

続く Image
Read 11 tweets
Feb 21
このツイートの存在にずっと気付いてなくて、昨晩読んでしまって笑い転げた。

やっぱり「知的レベルが低い」としか言いようがない。

今時の中学生はこの手のことを言うと馬鹿にされることをネットで見てよく知っているので、現代的には中学生にも馬鹿にされるレベルだと思います。
#統計

統計学ファンであれば、ゲルマンさんのブログで成田祐輔さんに関するNew York Timesでの記事が話題にされていることをすでに知っているはず。

ゲルマンさんのブログで悪い意味で取り上げられることは統計学方面では相当に怖いことだと思われます。

statmodeling.stat.columbia.edu/2023/02/13/yal…
#統計 リンク先に飛ぶのが面倒な人は添付画像の最初の部分だけに目を通すだけで雰囲気が分かると思います。

最後まで取っておいた最高のネタは専門の中に確率統計が入っていること(笑)

ゲルマンさんによれば【馬鹿げた操作変数法のパロディのようなもの】らしい。

statmodeling.stat.columbia.edu/2023/02/13/yal… Image
Read 14 tweets
Feb 19
最近ちょっと話題の中学校の数学の教科書にある「ねじれの位置」という用語についてですが、数学の理解には不要な用語であるとしっかり教えて行く必要があると私は思っています。

例えば「ねじれの位置にある線分の組み合わせはどれか?」のような試験問題を出した人には反省してもらう必要がある。
この手のことは他にもたくさんあり、近年、中学校数学の試験問題の質を大幅に下げていると思います。

「理解に不要な用語をわざわざ覚えたか」を問う有害な問題が理解度を問う問題であるかのように出題されているという問題。
子供に強制的に覚えさせたい用語については、強制する側がその強制が必要である理由を説明する責任があります。

それをせずに、その用語が不要な理由を私に質問するのは質問を急ぎ過ぎ。
Read 17 tweets
Jan 28
#統計 P値や信頼区間に関する大学での講義は(数え切れないくらい強調していることですが)、論文 journals.sagepub.com/doi/10.1177/02… の内容(過信や自信過剰を引き起こさない考え方)に従うように改訂されるべきだと思います。

過去の大学の講義のほとんどがその意味では失格。
#統計 帰無仮説は統計モデルのパラメータの値に関する仮説になっており、P値を得るための確率の(近似)計算は帰無仮説下の統計モデル内で行うことになるので、統計モデルについての説明がない仮説検定の説明は最初から相手にする価値がないということになります。
#統計 仮説検定における「統計モデル」は「P値の計算に使われる数学的仮定の全体」のようにざくっと定義しておくと便利です。

例えば、P値の計算に確率の近似計算を使うならば、その近似がうまく行くという条件が統計モデルの中に含まれていると考えると便利。
Read 10 tweets
Jan 28
#数楽

a(n+1)=3a(n)+2ⁿ は Ta(n)=a(n+1) を使えば

(*) (T-3)a(n)=2ⁿ

と書き直せる。(T-2)2ⁿ=0なので、

(*)⇒(T-2)(T-3)a(n)=0.

ゆえに(*)の解は

a(n)=A×3ⁿ+B×2ⁿ

と書ける。このとき(*)⇔B=-1.

以上の完全に機械的な解法は大幅に一般化可能。
#数楽 Ta(n+1)=a(n)と書く。

(Tⁿ+p₁Tⁿ⁻¹+…+pₙ)a(n) = 0

の形の斉次方程式の解の形が完全にわかっていることを使えば、f(n)がそのような形の斉次方程式の解であるときの

(Tⁿ+p₁Tⁿ⁻¹+…+pₙ)a(n) = f(n)

の形の非斉次の場合も機械的に解ける。技巧的な式の変形技術は無用になる。
#数楽 そういう技巧を不要にする機械的解法は、

 ある種の方程式を満たす数列全体の集合が具体的に完全にわかっていること

から、ただちに出て来る。

ある街の様子を完全に知っていれば、その街で苦労無しに快適に暮らせるのと似ている。
Read 8 tweets
Jan 27
#統計 mdsc.kyushu-u.ac.jp/lecturesmdsc.kyushu-u.ac.jp/wp/wp-content/… の内容が滅茶苦茶。添付画像を参照。

①信頼区間の説明で「母平均の分布もわかる!」と書いてある。酷い!

②「t分布する二つに値の「差」も、やはりt分布」と書いてある。酷い!

③Wilcoxonの順位和検定は中央値の差の検定法ではない。
#統計 P値や信頼区間に関するより現代的な知識は論文 journals.sagepub.com/doi/10.1177/02… で得られる。

統計的有意性とP値に関するASA声明 biometrics.gr.jp/news/all/ASA.p… は必読で、講義動画 ocwcentral.com/subjects/01GB4… には時代遅れな説明が書いてある教科書に批判的コメントがある。

これらの代替案に従えば無難。
#統計

mdsc.kyushu-u.ac.jp/lectures

slideshare.net/ssuserf64eb4/s…

にも同様に酷い説明がある。

①真の平均が正規分布しているかのようなグラフの下に【真の平均は,95%の確率で,標本平均±1.96σ/√Nの範囲にある!】と書いてある!酷い。

②【t分布する二つの値の「差」も,やはりt分布】とある!酷い!
Read 5 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Don't want to be a Premium member but still want to support us?

Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal

Or Donate anonymously using crypto!

Ethereum

0xfe58350B80634f60Fa6Dc149a72b4DFbc17D341E copy

Bitcoin

3ATGMxNzCUFzxpMCHL5sWSt4DVtS8UqXpi copy

Thank you for your support!

Follow Us on Twitter!

:(