【Python】PDF形式で保存してある大量の医学論文を連結する方法

この記事をシェアする

 

はじめに

今回は大量にあるPDFファイルを1つにまとめる方法を記事にしたいと思います。

医学論文に限らず、日常生活でもpdfが大量に溢れかえって管理が面倒くさいことがあるので便利です!

とりあえず、pubmedを開いて適当に論文をゲットしてきます。

f:id:Medicmed:20180611221029p:plain

「japan」で検索して、"Text availability"を"Free full text"にしておきます。

PDFをデスクトップに作成した厚労省フォルダの論文フォルダにそれらを入れておきます。

f:id:Medicmed:20180611221256p:plain

f:id:Medicmed:20180611221306p:plain

このように今は4つの医学論文があります。

今回使用するPythonコードを書いていきます。

 

 

ターミナルを起動させよう!

f:id:Medicmed:20180611221446p:plain

今回もNanoエディタでガシガシ書いていきます。

 

完成したプログラムはこちら!

f:id:Medicmed:20180611221631p:plain

PythonでPDFを扱うには「PyPDF2」モジュールを使用します。

インストールされてなかったのでインストールしました。

「pip3 install PyPDF2」と打ち込めばインストールできます。

f:id:Medicmed:20180611221945p:plain

 

 

プログラムを実行させよう!

f:id:Medicmed:20180611222452p:plain

実行する際には、連結したいPDFファイルが入っているフォルダを引数に指定します。

無事に成功したみたいのなので、論文フォルダを確認してみます。

f:id:Medicmed:20180611222640p:plain

「catAll.pdf」ファイルが新たに作成されているので中身を確認してみます。

ちゃんとPDFが連結されていることが分かります。

f:id:Medicmed:20180611222855p:plain

右のページに載っている論文は一時期話題になった慶応大学医学部の研究チームが発表したインフルエンザワクチンに関する論文です。

興味がある方は、ぜひ読んでみてください。

www.gohongi-beauty.jp

 

 

今回は単純に複数のPDFを1つにまとめるPythonプログラムを書きましたが、「各論文の最初のページだけを先頭に表示する」Pythonプログラムもちょっとした応用形として書いてみました。

各論文の表紙を先頭に表示するver

f:id:Medicmed:20180611223512p:plain

”combine.py"という名前にしました。

同じように連結したいPDFファイルが入っているフォルダの場所を指定して実行します。

f:id:Medicmed:20180611224040p:plain

新しく「All.pdf」ファイルが作成されました。

中身を確認してみます。

f:id:Medicmed:20180611224121p:plain

f:id:Medicmed:20180611224133p:plain

ちゃんと各論文の表紙ページがPDFの先頭に表示されています。

普段使いならコッチの方が便利かもしれないですね。

ぜひ参考にしてみてください。

 終わり。

 

今回参考にした書籍はコチラ!
退屈なことはPythonにやらせよう ―ノンプログラマーにもできる自動化処理プログラミング

退屈なことはPythonにやらせよう ―ノンプログラマーにもできる自動化処理プログラミング

 

 

 

合わせて読みたい記事!

www.medicalmed.press

www.medicalmed.press

 

みんなのPython 第4版