Discover and read the best of Twitter Threads about #R言語

Most recents (9)

#統計 その引用はページ全体に拡張した方が意図がくみとり易いと思います。

x_1,…,x_nの平均は差の二乗和 Σ (x_i - a)² を最小にするaとして特徴付けられ、中央値(一般に一意に決まらない)は差の絶対値の和 Σ |x_i - a| を最小にするaとして特徴付けられます。

mext.go.jp/content/140707…
#統計 私が、正直、理解できないのは、

【データの分布が非対称形の場合】には【代表値として平均値より中央値のほうが適切】である

という主張。

全体の平均を知りたい場合には平均値を知りたいし、順位的に真ん中の値を知りたい場合には中央値を知りたい(トートロジー)なら理解できるが、~続く
#統計 続き~、【データの分布が非対称形の場合】に【代表値として平均値より中央値のほうが適切】であるという主張は理解できない。

分布の非対称性をどこで使っているの?

中央値には左右の非対称性をケアする機能はありません。
Read 18 tweets
#統計 「伝統的な統計学」について、Fisher's exact testに関わるゴタゴタもウンザリさせられるような事態になっている。

* 2×2の分割表のχ²検定はFisher検定の近似に過ぎないので、可能ならば正確なFisher検定の方を使うべきだ(特に度数が小さい場合には)。

このデタラメを他人に教える人が多過ぎ。
#統計 一応念のためため述べておきますが、私は統計学についてはど素人。

そして、数学に関係した事柄については「教科書に書いてある」とか「査読論文に書いてある」のような事実を正しいことの証拠に挙げる人達を常日頃から「権威に基づいて正しさを判定するろくでもない奴らだ」と言っています。
#統計

⭕️2×2の分割表のχ²検定の方法をサンプルサイズが大きな場合のFisher検定の近似によって導出できる。

という主張は正しいです。しかし、

❌χ²検定はFisher検定の近似としてしか導けない。
❌Fisher検定は正確である。
❌χ²検定の誤差をFisher検定との違いで測るのが正しい。

はどれも誤り。
Read 41 tweets
#Julia言語

Julia内部から、

文字列のCのコードをgccにstdinから食わせてコンパイルして、ライブラリを作って、そのライブラリ内部の函数をJuliaから呼び出して使う方法の例↓

gist.github.com/genkuroki/9d43…

さらに、文字列のCのコードをJupyter上で色付けして表示する方法。
#Julia言語 Julia内部からCで作ったライブラリを使ったり、Pythonのライブラリを使ったりすることによって、Juliaを学ぶついでにCやPythonも学べてしまいます。

Juliaは「高速なグルー言語」
#Julia言語 「気軽に使えるグルー言語で多くの高速なライブラリを貼り合わせて使う」というアイデアは秀逸だったのですが、「グルー言語は遅くてもよい」という考え方はJuliaの登場によって誤りであったことが明瞭になってしまったと思います。

Juliaは「高速なグルー言語」(高速糊言語)
Read 18 tweets
まさに、それ! #Julia言語 で感動的なのは、パッケージも含めて導入が容易なこと。

①公式バイナリのインストーラーをダウンロードして実行。

julialang.org/downloads/

②Juliaを実行して

julia> ]
pkg> add 使用するパッケージのリスト

でパッケージ群も入れられる。
#Julia言語 すでにJupyterを使っているなら

julia> ENV["JUPYTER"] = """使用しているjupyterバイナリのフルパス"""
julia> ]
pkg> add IJulia
pkg> build IJulia

JupyterもJuliaが入れたものを使うなら、

julia> ENV["JUPYTER"] = ""

として以下同様。

これでJupyter上でJuliaを使える。
#Julia言語 Juliaのライブラリとして、Pythonをインストールしてしまうなら(~/.julia/cond以下にminicondaが入る)、

julia> ENV["PYTHON"] = ""
julia> ]
pkg> add PyCall
pkg> build PyCall

この他に

pkg> add PyPlot Seaborn SymPy SciPy

しておくと、Pythonに慣れた人にとっても便利なはず。
Read 12 tweets
#Julia言語 個人的に印象に残っているバグは、二項分布モデルや超幾何分布モデルでのP値を計算する函数でのバグ。

浮動小数点数の世界では、≤ や < は信用できず、⪅ や ⪉ を使わないと、特殊な場合における丸め誤差のせいでおかしな値になる。

グラフをプロットしているうちに気付いた。
#Julia言語 1つ前のツイートで言及したようなバグの発見を完全自動化するのは無理だと思う。

一方、Juliaで自動的にできて欲しいことに、完璧でなくてもよいので、「長時間計算した後にno method matchingでエラーが出て止まる可能性がある場合」を見つけることがある。

たまにやらかしてへこむ。
#Julia言語 そういう方向への1つの試みが Shuhei Kadowaki さんによる

github.com/aviatesk/TypeP…

です。明らかにパイオニア的な試み。

フランス語圏でもその情報が捕捉されて紹介されていた(笑)

pnavaro.github.io/NouvellesJulia…
Read 5 tweets
#Julia言語 大反響の以下のリンク先のブログ

mdneuzerling.com/post/first-imp…
【Julia is fast, and the compiled code is often very similar to C. But a really powerful consequence of this is that a user doesn’t need to learn another language to become a contributor.】

本質を突いている!
#Julia言語 翻訳【Juliaは速い~しかし、速いことの真に強力な帰結は、ユーザーがコントリビューターになるために、[CやC++のような相対的に習得が面倒な]他言語を学ぶ必要がないことである~Juliaを知っていればJuliaを使うためには十分である[.hや.cに触れる必要はない]】

mdneuzerling.com/post/first-imp… Image
#Julia言語 プログラミング自体は専門ではないが、科学技術や統計に関わるパッケージを作って貢献したいと思っている人達にとってはJuliaは魅力的に見えると思います。

現在はそうなっていないのですが、将来的にはCやC++やFortranの学習に割く時間を他のことに使えるようになるかもしれない。
Read 7 tweets
#Julia言語 最近、ツボにはまったJuliaネタは、#R言語 (#RStats)からJuliaを使うためのRライブラリのリポジトリで、JuliaをRのライブラリとして自動的にインストールするようにしてしまうことが提案されていること。

github.com/Non-Contradict…
Automatic Installation of Julia? #116
#Julia言語 ではPyCall.jlパッケージをすでにインストール済みのPythonを使わない設定で使うと、PythonをJuliaのライブラリとして自動的にインストールするようになっています。

おそらく、これが原因でJuliaユーザーは自分のパソコン内のPythonを1つ増やしている人が多いと思う。私もそうです。
要するに #Julia言語 では、PythonをまるでJuliaのライブラリであるかのように扱える仕組みができている。

それと同じように、#R言語 のユーザーにとって、JuliaがRの一部分であるかのように自動的にインストールされるようにしてしまうことが提案されているわけです。
Read 5 tweets
#Julia言語 以下の特徴があるので、Juliaがベスト。

* 気楽にアルゴリズムを実装できる。

* 速い。

* Jupyter notebook化すれば数式を含む解説文とコードとプロットを1つのファイルにまとめられる。

* パッケージ化が容易。

* 他言語との連携によって例えばPythonやRでも使えるようにできる。
#Julia言語 二項検定のP値と信頼区間のコード

using Distributions, Roots

⪅(x, y) = x < y || x ≈ y

pval(n, k, p) = let bin = Binomial(n, p); sum(pdf(bin, j) for j in 0:n if pdf(bin, j) ⪅ pdf(bin, k)) end

ci(n, k, α) = find_zeros(p -> pval(n, k, p) - α, 0, 1)

たったの4行! Image
#統計 #Julia言語 P値を計算する函数が実装済みなら、信頼区間函数の実装は

ci(n, k, α) = find_zeros(p -> pval(n, k, p) - α, 0, 1)

の1行で終わることは注目に値する。この事実は統計学入門の教科書を見ても出て来ない。

一般に統計学入門の教科書における信頼区間の説明はひどい。
Read 13 tweets
#統計 1つ前のツイートのリンク先の解説

採用したモデルは「サイコロA,B,Cのどれかである」で事前分布でA,B,Cが等確率。サイコロA,B,Cの出目の分布は添付画像の通り。

しかし、推定先のサイコロXの出目の分布はサイコロA,B,Cからかけ離れていた。そして、推定・推測・推論にも失敗した。
#統計 扱っている状況が単純でない場合には、統計分析に使用したモデルが現実において妥当かどうかはそう簡単には分かりません。

そして、モデルが妥当であるかどうかで、統計分析が信用できるか否かが決まります。

これはベイズであろうがなかろうが同じこと。
仮説検定や信頼区間でも同じ。
#統計

A氏>我々は可能な限り努力して、妥当だと思われる確率モデルと事前分布を用いて、◯◯という仮説が正しい確率はほぼ100%になることを確認できました!

B氏>で、そのモデルが現実において妥当な証拠は?

A氏>我々はベイズ主義に基いて研究しているので、その質問には答えられません!
Read 289 tweets

Related hashtags

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3.00/month or $30.00/year) and get exclusive features!

Become Premium

Too expensive? Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal Become our Patreon

Thank you for your support!