【Python】臨床試験登録サイトUMINから必要なデータだけを抜き取る

はじめに

www.umin.ac.jp

今回使用するサイトはUMINです。

「登録・公開された全臨床試験の一覧」

とあるのでそちらをクリックします。

そうすると下記の様な画面に切り替わります。

f:id:Medicmed:20180430235033p:plain

今回は、その中から下記を題材にしたいと思います

 リブレプロスタディ糖尿病聖マリアンナ医科大学東横病院 代謝・内分泌内科

今回抜き取ってくるデータは

  1. 試験名
  2. 対象疾患
  3. 目的
  4. 主要アウトカム

の4つにしました。

f:id:Medicmed:20180430234726p:plain

まずHTMLの要素を確認します。

欲しいデータがどの部分に該当するのかを事前に調べておく必要があります。

PythonのPandasにはtableだけ抜き取ってくれる関数があるのでソチラの方を使用したいと思います。

 完成したプログラム結果
f:id:Medicmed:20180501002630p:plain

 このように必要なデータだけを抜きってくることができました。

Pythonを起動させよう!

f:id:Medicmed:20180430235810p:plain

nanoエディタで編集していきます。

完成したプログラムはコチラ
f:id:Medicmed:20180501002322p:plain

 ターミネータをこの前インストールしたので2画面にし別の画面で実行させていきたいと思います。

f:id:Medicmed:20180501002531p:plain
terminalを使いこなそう!

この結果をファイルに保存させましょう。

この場合はターミナルがとても便利です。

f:id:Medicmed:20180501002957p:plain

このように1行だけコマンドを打ち込むだけでout.txtファイルが自動的に作成されます。

f:id:Medicmed:20180501003034p:plain

ぜひ参考にしてみてください。

終わり。


Pythonスタートブック[増補改訂版]
f:id:Medicmed:20180428002337p:plain

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください