【Python】臨床試験登録サイトUMINから必要なデータだけを抜き取る

この記事をシェアする

 

独学プログラマー Python言語の基本から仕事のやり方まで

独学プログラマー Python言語の基本から仕事のやり方まで

 

はじめに

www.umin.ac.jp

今回使用するサイトはUMINです。

「登録・公開された全臨床試験の一覧」

とあるのでそちらをクリックします。

そうすると下記の様な画面に切り替わります。

f:id:Medicmed:20180430235033p:plain

 

今回は、その中から下記を題材にしたいと思います

 リブレプロスタディ糖尿病聖マリアンナ医科大学東横病院 代謝・内分泌内科

 

今回抜き取ってくるデータは

  1. 試験名
  2. 対象疾患
  3. 目的
  4. 主要アウトカム

の4つにしました。

f:id:Medicmed:20180430234726p:plain

まずHTMLの要素を確認します。

欲しいデータがどの部分に該当するのかを事前に調べておく必要があります。

PythonのPandasにはtableだけ抜き取ってくれる関数があるのでソチラの方を使用したいと思います。

【スポンサーリンク】
 

 完成したプログラム結果

f:id:Medicmed:20180501002630p:plain

 このように必要なデータだけを抜きってくることができました。

 

Pythonを起動させよう!

f:id:Medicmed:20180430235810p:plain

nanoエディタで編集していきます。

www.medicalmed.press

完成したプログラムはコチラ

f:id:Medicmed:20180501002322p:plain

 ターミネータをこの前インストールしたので2画面にし別の画面で実行させていきたいと思います。

【スポンサーリンク】
 

 

f:id:Medicmed:20180501002531p:plain

www.medicalmed.press実行した結果が最初の画像になります。

 

terminalを使いこなそう!

この結果をファイルに保存させましょう。

この場合はターミナルがとても便利です。

f:id:Medicmed:20180501002957p:plain

このように1行だけコマンドを打ち込むだけでout.txtファイルが自動的に作成されます。

f:id:Medicmed:20180501003034p:plain

 

ぜひ参考にしてみてください。

終わり。

f:id:Medicmed:20180428002337p:plain

 

【スポンサーリンク】