「PDF」の版間の差分
提供:作業療法大百科事典OtWiki
2行目: | 2行目: | ||
==textを抜き出す技術== | ==textを抜き出す技術== | ||
PDFを分析するためにテキストデータを扱いたいことがある。 | |||
[https://note.com/kan_hatakeyama/n/n1773c588ecb4 pdfからtextを抜き出す試行錯誤のメモ|Kan Hatakeyama] | [https://note.com/kan_hatakeyama/n/n1773c588ecb4 pdfからtextを抜き出す試行錯誤のメモ|Kan Hatakeyama] |
2024年2月24日 (土) 00:01時点における最新版
見た目と印刷環境をどの環境でも同じになるように整える技術。
textを抜き出す技術
PDFを分析するためにテキストデータを扱いたいことがある。
pdfからtextを抜き出す試行錯誤のメモ|Kan Hatakeyama
Pythonのライブラリを使う方法
2024/02/24時点、PyMuPDFがよいとのこと。[1]