今回の記事ではPDFから表を取り出しCSVファイルを保存する方法を紹介します。
Google colabで簡単に実装できますので、ぜひ最後までご覧ください。
PDFから表を取り出しCSVファイルを保存する
必要なライブラリをインストール
まずは必要なライブラリをインストールします。
!pip install tabula-py
PDFファイルを読み込み
CSVとして出力したい対象のPDFファイルをアップロードします。
以下のコードを実行すると、PDFファイルをアップロードすることができるようになります。
ここではこちらの資料を対象とします。
# ファイルのアップロードを促進するためのウィジェットをインポート
from google.colab import files
import tabula
import pandas as pd
# PDFファイルをアップロード
uploaded = files.upload()
# アップロードされたファイル名を取得
pdf_file = list(uploaded.keys())[0]
# PDFファイルから表を抽出
tables = tabula.read_pdf(pdf_file, pages='all', multiple_tables=True)
表形式の表示
読みこんだ表のデータを表形式として表示することができます。
# 各表をpandas DataFrameとして表示
df = tables[0]
df
実行結果:
表形式をCSVまたはExcelに保存する
それぞれの形式で保存することができます。
# CSVとして保存したい場合
df.to_csv('table1.csv', index=True)
# Excelとして保存したい場合
df.to_excel('table1.xlsx', index=True)
まとめ
最後までご覧いただきありがとうございました。