RとPythonで医学統計

RとPython初心者医学生

現役医学生の統計検定準1級勉強方法

まずは復習として「心理統計学の基礎」を読み直しています。

8章以降メインで読んでいます。

「偏相関と重回帰分析」

「実験デザインと分散分析」

「因子分析と共分散構造分析」

です。

準1級ではモロに出ますので、必死に勉強中です。

今勉強しているのは、「独習統計学応用編」です。

医学生向けなので統計検定の用途以外としても便利です。

第7講の「適合度検定」と8講の「尤度比検定」は勉強になりました。

回帰直線の部分についてわかってなかったところが多くて、「単回帰の信頼区間と予測区間」では

  1. 回帰係数
  2. 回帰直線のY座標
  3. 目的変数
  4. 回帰直線

それぞれの信頼区間or予測区間があって自分が何を求めたいのか意識する必要があることを理解しました。

「てこ比」に関しては、他の医学統計本では見なかったので勉強になりました(準1級でも出てたので要勉強です)

回帰モデルの妥当性で残差分析を行うにあたり、残差プロットやQ-Qプロットなどは知ってましたが、”Cookの距離”とか初めて知りました。

これも統計検定の問題集に出てたのでやらないといけないです。

赤池の情報量基準AICも過去問に出てたので勉強しないと・・・。

あとは独立性の検定の部分でも勉強になりました。

医学生的に「分割表の検定」=「独立性の検定」=「カイ二乗検定」と短絡的ですが、分割表のサンプリングデザインでも

  1. 総和だけ固定
  2. 行和だけ固定
  3. 両周辺和が固定

それぞれで違ってくることが分かりました。

全部同じくくりで理解していたので、新しい発見。

 

準1級の例題集を見ると、機械学習関連も多少出ている模様です。あと情報処理(多分Rでの処理)

「線形判別/カーネルSVM/最近隣法/決定木」については例題集に出ていたので、勉強する必要があると思います。

ただ、見た限り機械学習系の問題はそこまで難しいレベルはでてないので「データサイエンティスト養成読本」で勉強してます(むしろ、これで何とかなって欲しい)

 

ベイズについても機械学習理論の基礎になっているので、ベイズベイズで学習が必要です。

医学生的には「検査前確率×尤度比=検査後確率」ぐらいのレベルでしか学習しないですし。

例題集でも「ギブスサンプリング」を用いて確率標本を発生させる時の計算が出てて、医学生にとって辛い内容です。

ベイスに関しては下記のブログを参照しています。

machine-learning.hatenablog.com

初学者用に丁寧に解説記事があるのでそちらだけ参照してます。

 

準1級を受けるに当たって、医学生の障壁になるのは「時系列解析」の問題です。

時系列系解析の問題を医学統計学本で扱っているものは、自分が観測している限り皆無なので、そこは準1級対策として勉強する必要があると思っています。

ただ、問題なのが本屋さんに行っても適切なレベルの時系列分析の本がないことです。

意識高い系の人々が読みそうな「数式の書いていないビジネス書」かその筋の人しか読まないであろう「数式しか書いていない専門書」だけがあって、現時点では学習するのが大変です。

 

あとは、”デルタ法”や”ラグランジュ未定乗数法”や”マハラノビスの汎距離”など中二病くさいもの登場してきますので、別途学習が必要になっています(医学統計本で見ることはまずない)

 

個人的Rの勉強ですが、「Rによる医療統計学」を勉強しています。

医学生時代にこの内容レベルが扱えていれば大丈夫だと信じたいです。

最近買ってしまったR本は奥村晴彦先生の書いてある「Rで楽しむ統計」です。サイズ薄いので楽しみながら読みたいです。