仮想通貨 de 医学生

医学生がRとPythonで医学統計

【Regex Character】医学生がPythonで東京大学医学部の問い合わせ先から電話番号だけを抜き取ってみた

 

はじめに

 

 

今日は東京大学医学部のホームページから電話番号だけを抜き取ってくるやり方をブログにするよ!

 

 

 

今回使用する東京大学大学院医学系研究科・医学部のホームページです。

問い合わせ先:東京大学大学院医学系研究科・医学部

f:id:Medicmed:20180417094257p:plain

 

参考にした書籍はコチラ

退屈なことはPythonにやらせよう ―ノンプログラマーにもできる自動化処理プログラミング

退屈なことはPythonにやらせよう ―ノンプログラマーにもできる自動化処理プログラミング

 

 

ターミナルを起動させよう!

f:id:Medicmed:20180417094441p:plain

 

wgetコマンドを使ってターミナル上にhtmlの内容を表示させる

wgetコマンドを使用して、htmlをファイルに保存せず結果だけをターミナル上に表示させてみます。

f:id:Medicmed:20180417094911p:plain

Enterを押してみると、結果がダラーっと表示されます。

f:id:Medicmed:20180417095030p:plain

デスクトップ上にこの内容を"UT_form.txt"として保存します。

f:id:Medicmed:20180417095849p:plain

Enterを押すとデスクトップ上に新しく"UT_form.txt"ファイルが作成されます。

f:id:Medicmed:20180417095829p:plain

"UT_form.txt"ファイルを開いてみます。

f:id:Medicmed:20180417100019p:plain

ちゃんとhtmlの内容が書き込まれているのを確認できました。

Pythonを用いてここから電話番号だけを抜き取っていきます。

 

Pythonを起動させよう!

f:id:Medicmed:20180417100405p:plain

 Python正規表現reモジュールをインポートして、電話番号のRegexを作っていきます。

f:id:Medicmed:20180417100710p:plain

これで準備は完了です。

 

"UT_form.txt"をPythonに読み込ませて電話番号だけを取得する!

 "UT_form.txt"ファイルを開き、内容をdataに格納します。

f:id:Medicmed:20180417101829p:plain

dataと打ち込んでEnterを押すと内容がちゃんと格納されていることが確認できます。

f:id:Medicmed:20180417102019p:plain

 

reモジュールの"findall関数"を用いて電話番号だけを抜き取る

準備で作成した"phoneRegex"に"findall"関数を使用し"data"の中から電話番号だけを抜き取ります。

f:id:Medicmed:20180417102339p:plain

 Enterを押すと電話番号だけがちゃんと抜き取れていることが分かります。

f:id:Medicmed:20180417102531p:plain

 

ぜひ参考にしてみてください。

 

終わり。