黒木玄 Gen Kuroki Profile picture
私については https://t.co/4Rn1NBazJQ と https://t.co/WbWjr95AmF と https://t.co/P7WOMn2ay1 と https://t.co/ouhJUcBE7E を見て下さい。
4 subscribers
Dec 31, 2024 11 tweets 1 min read
#統計 95%信頼区間の95%について「何度も同じ無作為抽出を繰り返して区間を計算し直したときに、真の値が含まれる区間の割合が95%になる」という説明は誤り。この説明は本当によく見る。

現実での繰り返しは不要だし、モデルが妥当でないとそもそもそれは正しくない。

Greenlandさんによる説明
#統計 特定の統計モデルの下で、現実世界で得たデータの数値とモデルのパラメータの値の相性の良さ(compatibility)の指標であるP値が与えられているとき、P値が5%以上になるパラメータの値全体が95%信頼区間になる。

P値はモデル内確率であり、単なる和や積分で計算される値で、「繰り返し」は不要。
Aug 29, 2024 11 tweets 1 min read
#統計 サイコロを1万回ふってどの目の確率も1/6に近付くかを調べることについて、

「大数の法則」
「標本調査がどーして成り立つか」
「1万回も投じる必要がない」

と基本的なことを理解していない疑いがある発言をしているところにみんなもっとつっこみを入れるべきだと思いました。
Image #統計 以下のリンク先の反応も理解していない側に分類されると私は思いました。

確率の計算をある程度できれば「1万回もしなくていい」と安易に言えないはずです。

例えば、試行回数n=10000、成功確率p=1/6の二項分布において、0.99np以下となる確率と1.01np以上となる確率を計算してみて下さい。 Image
Jun 13, 2024 36 tweets 8 min read
#統計 いつも言っていることをそのまま書きます。長めのスレッドになります。

以下スクショによるスライドの引用は より。赤字と青字は私による書き込みコメント。

まず、p.12について。詳しい解説に続く。 speakerdeck.com/shuntaros/jia-…

Image #統計 「違いがない」の型の帰無仮説のP値をnull P値と呼びます。

null P値は「違いは○○である」の型の仮説に関する無数のP値の特別な場合で、null P値へのこだわりは悪しきnullismである云々とGreenlandさんは言っています。

biostat.ucdavis.edu/sites/g/files/…
Image
Jun 18, 2023 40 tweets 11 min read
#統計 念の為のコメント

1️⃣「t検定の使用が適切なためには、母集団が正規分布に従っていることが必要である」という考え方は誤り。

2️⃣「Wilcoxonの順位和検定=Mann-WhitneyのU検定であれば、無条件使用は適切である」という考え方も誤り。

以上の誤りを信じている人達をよく見る。続く #統計

1️⃣「t検定の使用が適切なためには、母集団が正規分布に従っていることが必要である」という考え方は誤り。

これについてはツイッター上で繰り返し非常に詳しく解説して来ました。

ツイログ検索

twilog.togetter.com/genkuroki/sear…
Jun 17, 2023 20 tweets 5 min read
#数楽 ℤ[√2]やℤ[√3]はEuclid整域なのでPIDでUFDになるので、ℤ[√2]やℤ[√3]係数の多項式の √2や√3が出て来る因数分解の問題も既約元の積に分解する問題として意味を持ちます。続く #数楽 ただし、整数dに関する√dが出て来る場合には、既約元の積への分解は因子の可逆元倍と順序の違いを無視しても一意的でなくなる場合が出て来ます。

実はそういうところに面白い数学が隠れている!
Jun 16, 2023 6 tweets 1 min read
東工大出身者のような理系の人達が、上野千鶴子が自閉症の母親原因説を唱えるくらい科学的に無能でかつ優しさに欠けた人物であることぐらいは知っておいた方が、我々の社会はよくなる可能性が高まると思います。

有名かつ有力になってしまった人物はたとえク○であっても無視できなくなる。 上野千鶴子は、自閉症の原因について母子密着説を唱えていたのですが、それが誤りであることが定説になっていることを指摘された後には、定説と上野千鶴子的なトンデモ説を平等に扱うという態度を取りました。

上野千鶴子の自分が苦しめた人達への態度は真にあきれるものでした。
Jun 15, 2023 6 tweets 1 min read
私は、環論を学ぶまで、重根もしくは重解の概念を十分に理解できた感じがしてなかったです。(代数)方程式の概念も同様。

実数体上の方程式x²=0は環

A = ℝ[x]/(x²)

で表現されます。これと方程式x=0に対応する環

ℝ[x]/(x)

は異なる。環論を使えば方程式x²=0とx=0を明瞭に区別できます。 環k上の環Aで表現された方程式のk上の環Bでの解集合はk上の環準同型全体の集合

Hom_{k-ring}(A, B)

で表現されます。例えば、集合として、

Hom_{ℝ-ring}(ℝ[x,y]/(x²+y²-1), ℝ) ≅ {(x,y)∈ℝ²|x²+y²=1}.
Jun 15, 2023 18 tweets 2 min read
以下のリンク先スレッド中にも書きましたが、

* 最初に共通の定数因子を括り出すと、その後の計算が楽になる場合がある。

と教えるようにして、

* 共通の定数因子を括り出していなくても、目くじらをたてない。

という教え方にすればよいと思いました。 教科書に従って「a(3x-6y)は誤りで、3a(x-2y)が正解だ」と安易に教えてしまった中学校の数学の先生は

 数学の先生なのに
 教科書通りにおかしなことを教えて
 ごめんなさい

と言って欲しいです。数学では教科書の内容を正しいと信じてはいけない。数学はそういうものだと大学で習っているはず。
Feb 22, 2023 13 tweets 7 min read
#統計 speakerdeck.com/taka88/pzhi-fa… のp.7からp.8への流れは、natureの記事の内容を誤解させるような、よろしくない解説の仕方だと思いました。

「差がない」という特別な帰無仮説の検定だけで勝負を決めようとすることへの批判をP値そのものへの批判とみなすことは、よく見る杜撰な考え方です。続く #統計 実際、natureの記事 nature.com/articles/d4158… ではcompati{ble,bility}が重要キーワードになっており、P値が

データ、モデル、パラメータ値のcompatibility(相性の良さ、両立性)の指標の1つ

とみなされることを詳しく説明しています。

この部分に触れずにこの記事を引用しても無意味。続く
Feb 21, 2023 14 tweets 7 min read
このツイートの存在にずっと気付いてなくて、昨晩読んでしまって笑い転げた。

やっぱり「知的レベルが低い」としか言いようがない。

今時の中学生はこの手のことを言うと馬鹿にされることをネットで見てよく知っているので、現代的には中学生にも馬鹿にされるレベルだと思います。 #統計

統計学ファンであれば、ゲルマンさんのブログで成田祐輔さんに関するNew York Timesでの記事が話題にされていることをすでに知っているはず。

ゲルマンさんのブログで悪い意味で取り上げられることは統計学方面では相当に怖いことだと思われます。

statmodeling.stat.columbia.edu/2023/02/13/yal…
Feb 20, 2023 33 tweets 14 min read
#統計

正確な説明にこだわっているようなのであえてコメント。

線形回帰でこだわるべき条件は「残差が正規分布」よりも「残差が独立同分布」の方です。

残差が非正規分布のi.i.d.のときの線形回帰は、非正規母集団のt検定と同じようにうまく行ったり、行かなかったりします。詳しい解説に続く。 #統計 例で説明します。

まず、残差がi.i.d.ではないが、残差全体は正規分布に従う場合があることの説明。

添付画像がそのような場合の例になっています。

データの散布図(青点達)を見ると、この場合には単純な線形回帰の適用が不適切であることは明らか。続き#

nbviewer.org/github/genkuro… Image
Feb 19, 2023 17 tweets 4 min read
最近ちょっと話題の中学校の数学の教科書にある「ねじれの位置」という用語についてですが、数学の理解には不要な用語であるとしっかり教えて行く必要があると私は思っています。

例えば「ねじれの位置にある線分の組み合わせはどれか?」のような試験問題を出した人には反省してもらう必要がある。 この手のことは他にもたくさんあり、近年、中学校数学の試験問題の質を大幅に下げていると思います。

「理解に不要な用語をわざわざ覚えたか」を問う有害な問題が理解度を問う問題であるかのように出題されているという問題。
Jan 28, 2023 10 tweets 3 min read
#統計 P値や信頼区間に関する大学での講義は(数え切れないくらい強調していることですが)、論文 journals.sagepub.com/doi/10.1177/02… の内容(過信や自信過剰を引き起こさない考え方)に従うように改訂されるべきだと思います。

過去の大学の講義のほとんどがその意味では失格。 #統計 帰無仮説は統計モデルのパラメータの値に関する仮説になっており、P値を得るための確率の(近似)計算は帰無仮説下の統計モデル内で行うことになるので、統計モデルについての説明がない仮説検定の説明は最初から相手にする価値がないということになります。
Jan 28, 2023 8 tweets 3 min read
#数楽

a(n+1)=3a(n)+2ⁿ は Ta(n)=a(n+1) を使えば

(*) (T-3)a(n)=2ⁿ

と書き直せる。(T-2)2ⁿ=0なので、

(*)⇒(T-2)(T-3)a(n)=0.

ゆえに(*)の解は

a(n)=A×3ⁿ+B×2ⁿ

と書ける。このとき(*)⇔B=-1.

以上の完全に機械的な解法は大幅に一般化可能。 #数楽 Ta(n+1)=a(n)と書く。

(Tⁿ+p₁Tⁿ⁻¹+…+pₙ)a(n) = 0

の形の斉次方程式の解の形が完全にわかっていることを使えば、f(n)がそのような形の斉次方程式の解であるときの

(Tⁿ+p₁Tⁿ⁻¹+…+pₙ)a(n) = f(n)

の形の非斉次の場合も機械的に解ける。技巧的な式の変形技術は無用になる。
Jan 27, 2023 5 tweets 5 min read
#統計 mdsc.kyushu-u.ac.jp/lecturesmdsc.kyushu-u.ac.jp/wp/wp-content/… の内容が滅茶苦茶。添付画像を参照。

①信頼区間の説明で「母平均の分布もわかる!」と書いてある。酷い!

②「t分布する二つに値の「差」も、やはりt分布」と書いてある。酷い!

③Wilcoxonの順位和検定は中央値の差の検定法ではない。 #統計 P値や信頼区間に関するより現代的な知識は論文 journals.sagepub.com/doi/10.1177/02… で得られる。

統計的有意性とP値に関するASA声明 biometrics.gr.jp/news/all/ASA.p… は必読で、講義動画 ocwcentral.com/subjects/01GB4… には時代遅れな説明が書いてある教科書に批判的コメントがある。

これらの代替案に従えば無難。
Jan 27, 2023 4 tweets 2 min read
#統計 「全部pだと困る問題」について。個人のノートでは

p₁(y|x,c)p₂(x|c)p₃(c)p₁(yₐ|a,c)

の代わりに、

p(y|x,c)p(x|c)p(c)p(y=yₐ|x=a,c)

と書くことにしている。引数名を固定して、引数xにaを代入する場合には引数をx=aと書くという方針。

#Julia言語 のp(; y, x, c)と同じ仕様を採用😊 #Julia言語 での p(; x=y, μ=0, σ) のような書き方はこんな感じ。

using Distributions

p(; x, μ, σ) = pdf(Normal(μ, σ), x)

y = 1.96
σ = 1

p(; x=y, μ=0, σ) using Distributions  p(; x, μ, σ) = pdf(Normal(μ, σ), x)
Jan 27, 2023 31 tweets 13 min read
#統計 2009年頃に、添付画像の場合に傾向スコア法を使うとバイアスが生じたりしないのか、という質問にルービン先生がまともに答えることができなかった件はもっと知られてよいと思う。

この件については、ルービン先生的な因果推論を学んだ人達もルービン先生個人に批判的になるべきだと思いました。 #統計 ある程度以上、統計的因果推論について学んだ人であれば、Cによる条件付けで調整すると、EのOutcomeへの効果にバイアスが生じ、因果効果の見積もりを誤る危険性があることを理解しているはずです。

易しい話です。
Jan 27, 2023 11 tweets 4 min read
#数楽 差分作用素をTf(n)=f(n+1)と書く。

a,b,cが異なるとき、

A aⁿ + B bⁿ + C cⁿ

は(T-a)(T-b)(T-c)の作用で消える。

(bⁿ-aⁿ)/(b-a)のb→aの極限naⁿ⁻¹なので

A aⁿ + A' naⁿ⁻¹ + C cⁿ

は(T-a)²(T-c)の作用で消える。続き #統計 c=a+hとおくと、

cⁿ = aⁿ + naⁿ⁻¹h + n(n-1)/2 aⁿ⁻² h² + O(h³)

なので、h→0のとき

(cⁿ - aⁿ - naⁿ⁻¹h)/h² →n(n-1)/2 aⁿ⁻².

ゆえに

A aⁿ + A' naⁿ⁻¹ + A'' n(n-1)/2 aⁿ⁻² = (nの2次以下の多項式) aⁿ

は(T-a)³の作用で消える。

一般の場合も同様。
Jan 26, 2023 4 tweets 1 min read
冷える。 Image さらに冷えた。 Image
Jan 25, 2023 43 tweets 15 min read
#統計 統計分析の背後には常にモデルがあり、統計的因果推論の場合には特に

* モデルを変えるべきときには変えなければいけない。

* 変更後のモデルに関する結果が変更前のモデルに関する結果から得られる場合がある。

が基本的。たぶん、パールさん達の方針は概念的にこのように要約される。続く #統計 例えば、変数XとYの関係を調べたいとき、Xが他の変数Zに影響されて決まる状況(例えば観察研究)と、ZのXへの影響を断ち切ってXのZと無関係に決まるようにした状況(例えばランダム化{比較,対照}試験)では、別の統計モデルを使う必要があります。

続く
Sep 30, 2022 28 tweets 10 min read
#統計 以前にも述べたことですが、

ism.ac.jp/editsec/toukei…
情報量規準 AIC の統計科学に果たしてきた役割
小西 貞則
2019

の添付画像の部分はひどいです。

BICもあるKL情報量(+モデルによらない定数)の(大胆な)推定値になっていることを小西さんは理解していないっぽい。

リンクに続く #統計 続き

以前に述べていたことは以下のリンク先すれっどにある。

BICは対数周辺尤度の-2倍の大胆な近似とみなされ、対数周辺尤度の-1倍の標本の確率的揺らぎに関する期待値は

 あるKL情報量+モデルによらないある定数

に一致している。

渡辺澄夫『ベイズ統計の理論と方法』を参照。