「PDF」の版間の差分

提供: 作業療法大百科事典OtWiki
 
2行目: 2行目:


==textを抜き出す技術==
==textを抜き出す技術==
PDFを分析するためにテキストデータを扱いたいことがある。


[https://note.com/kan_hatakeyama/n/n1773c588ecb4 pdfからtextを抜き出す試行錯誤のメモ|Kan Hatakeyama]
[https://note.com/kan_hatakeyama/n/n1773c588ecb4 pdfからtextを抜き出す試行錯誤のメモ|Kan Hatakeyama]

2024年2月24日 (土) 00:01時点における最新版

見た目と印刷環境をどの環境でも同じになるように整える技術。

textを抜き出す技術

PDFを分析するためにテキストデータを扱いたいことがある。

pdfからtextを抜き出す試行錯誤のメモ|Kan Hatakeyama

Pythonのライブラリを使う方法

2024/02/24時点、PyMuPDFがよいとのこと。[1]