今回の記事ではPDFから表を取り出しCSVファイルを保存する方法を紹介します。

Google colabで簡単に実装できますので、ぜひ最後までご覧ください。

PDFから表を取り出しCSVファイルを保存する

必要なライブラリをインストール

まずは必要なライブラリをインストールします。

!pip install tabula-py

PDFファイルを読み込み

CSVとして出力したい対象のPDFファイルをアップロードします。

以下のコードを実行すると、PDFファイルをアップロードすることができるようになります。

ここではこちらの資料を対象とします。

# ファイルのアップロードを促進するためのウィジェットをインポート
from google.colab import files
import tabula
import pandas as pd

# PDFファイルをアップロード
uploaded = files.upload()

# アップロードされたファイル名を取得
pdf_file = list(uploaded.keys())[0]

# PDFファイルから表を抽出
tables = tabula.read_pdf(pdf_file, pages='all', multiple_tables=True)

表形式の表示

読みこんだ表のデータを表形式として表示することができます。

# 各表をpandas DataFrameとして表示
df = tables[0]
df

実行結果:

表形式をCSVまたはExcelに保存する

それぞれの形式で保存することができます。

# CSVとして保存したい場合
df.to_csv('table1.csv', index=True)

# Excelとして保存したい場合
df.to_excel('table1.xlsx', index=True)

まとめ

最後までご覧いただきありがとうございました。