RとPythonで医学統計

RとPython初心者医学生

医学生が「マンガでわかる統計学【回帰分析編】」を読んでみた

読みました「回帰分析編」

感想としては、「大変勉強になった」に尽きます。

真面目に統計学を学びたい初学者向きだと思いました。

第1章の「基礎知識編」は読み飛ばして大丈夫です。

基本的な行列や逆関数の説明です。

 

第2章「回帰分析編」では勉強になったなと思うのは、「回帰分析が成立するための仮説」についてです。

「説明変数(独立変数)xの時の目的変数(従属変数)は平均がAx+Bで標準偏差SDがσの正規分布にしたがう」

というやつです。

だいたい、難しめの本にはこの仮説のグラフとしての形状が書いていますが今まで意味不明の状態でした。

この本を読んで、なるほどと理解できた気がします。

説明変数xの時の正規分布の形は全て等しいってことです。

 

回帰係数の検定についても理解がはかどりました。

検定に関することって、何よりも大切なことは

「帰無仮説H0が何なのかをしっかり理解すること」

だと思います。

今回の場合は「回帰係数の検定」と書いてある通り、帰無仮説は

「母回帰の回帰係数=0」

ということです。

F分布とt分布で得られる結論は同じってところはサラッと流しました(理由は深く追求してないです)

 

あと、第2章で学びがあった所は「推定」「予測」についての違いです。

「信頼区間」と「予測区間」という言葉がある通り、それぞれ意味合いが違います。

「母集団」について考えているのか「未来」について考えているのかで使うものが変わるんですね。

幅の広さですが、

予測区間>信頼区間

らしいです(不測の事態分の誤差が含まれているため)

 

「標準化残差」については異質な個体を回帰分析する前に除外するために有効だということがわかりました。

「系列相関」についてはこの本で初めて知りました。大切なポイントは

「時間経過が目的変数に影響を及ぼしている可能性がある場合、隣接する残差の関連状況を確認する」

ことです。

”ダービン・ワトソン統計量”ってナニ?って思いながらも、「値が2前後なら系列相関はないと解釈しても良い」ってだけ押さえました。

 

第3章が「重回帰分析編」です。

「偏回帰係数」が「行列」で計算できるってところが勉強になりました。

f:id:Medicmed:20170219202320p:plain

パソコンで書いたやつなので、汚いですが内容はこんな感じです。*1

 

「偏回帰係数の検定」でのポイントは

「回帰分析と違って2種類ある」

ことです。

①「偏回帰係数を包括的に調べる検定」

②「偏回帰係数を個別に調べる検定」

です。

重回分析の信頼区間に求める際に出てくる「マハラノビスの汎距離」についてはあまり説明がなかったので、今回は対して理解できませんでした。

とりあえず、重回帰分析で「マハラノビスの汎距離」が出てくるってことだけを押さえました。

「多重共線性」についても、あまり触れられていませんでした。

 

コラムの方に書いてあって、【「目的変数に対する各説明変数の影響度」と重回帰分析】では、「目的変数に対する各説明変数の影響度」を調べるには、重回帰分析よりも構造方程式モデリングという分析手法の方が向いているということを理解しました。

ちなみに、構造方程式モデリングってのが何なのかは良くわかってません。

 

第4章が「ロジスティック回帰分析」です。

まず理解として、

「確率を予測するための分析手法がロジスティック回帰分析」

ということです。

回帰分析のところで述べた、検定については

①「偏回帰係数を包括的に調べる検定」=「尤度比検定」と呼ばれる

②「偏回帰係数を個別に調べる検定」=「ワルド検定」と呼ばれる

という名前に変化するぐらいでした。

ロジスティック回帰分析については、軽い説明だけで終わっていたのでそれほど理解が進みませんでした。

3月に入ったら「多変量解析法入門」を読んでいきたいと思います。

*1:A=説明変数①、B=説明変数②、C=目的変数