Python在pdf中提取表格
1 Tabula-py
1.1 开源项目
https://github.com/chezou/tabula-py 1.9k star
1.2 安装
1 | pip install tabula-py |
1.3 使用
1 | import tabula |
1.4 评测
它使用到 java 库,会使开发环境变得比较重
2 camelot
2.1 开源项目
https://github.com/atlanhq/camelot 3.5k star
https://github.com/camelot-dev/camelot 2.4k star
2.2 安装
1 | pip install camelot-py |
2.3 评测
需要安装 opencv,opengl,安装起来比较麻烦,比较重。
3 pdfplumber
3.1 开源项目
https://github.com/jsvine/pdfplumber 4.7k star
3.2 安装
1 | pip install pdfplumber |
3.3 评测
这是一个 pdf 解析库,不仅用于解析表格;能用于解析表,但比较粗糙,多一些空格,多余的列... 需要自行处理,不过行数列数还对得上,可以直接转成 DataFrame。
All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.