我正在使用tika-python从 pdf 中提取文本。但是当一个pdf页面中有多个表格时,文本的顺序不会被保留。在我的情况下,页面顶部的表格在通过 tika 提取时位于末尾。
我尝试使用以下自定义配置文件。但它不起作用。我曾尝试将声明保留<property name="sortByPosition" value="True"/>
在不同的位置。但没有任何效果。我为 config.xml 引用了这个。
<?xml version="1.0" encoding="UTF-8"?>
<properties>
<parsers>
<!-- Default Parser for most things, except for 2 mime types, and never
use the Executable Parser -->
<parser class="org.apache.tika.parser.DefaultParser">
<mime-exclude>image/jpeg</mime-exclude>
<mime-exclude>application/pdf</mime-exclude>
<parser-exclude class="org.apache.tika.parser.executable.ExecutableParser"/>
<!-- property name="sortByPosition" value="True" -->
</parser>
<parser class="org.apache.tika.parser.EmptyParser">
<mime>application/pdf</mime>
<!-- here? -->
<property name="sortByPosition" value="True"/> # this statement is for preserving the order
</parser>
</parsers>
</properties>
和以下命令来阅读文本:
from tika import parser
data = parser.from_file(file_path, xmlContent=True,
config_path=/path/to/'tika_config.xml')
我做错了什么或者改变配置或保留顺序的方法是不可能的?