python - Tika python不保留pdf中文本的顺序

Question

我正在使用tika-python从 pdf 中提取文本。但是当一个pdf页面中有多个表格时，文本的顺序不会被保留。在我的情况下，页面顶部的表格在通过 tika 提取时位于末尾。

我尝试使用以下自定义配置文件。但它不起作用。我曾尝试将声明保留<property name="sortByPosition" value="True"/>在不同的位置。但没有任何效果。我为 config.xml 引用了这个。

<?xml version="1.0" encoding="UTF-8"?>
<properties>
  <parsers>
    <!-- Default Parser for most things, except for 2 mime types, and never
         use the Executable Parser -->
    <parser class="org.apache.tika.parser.DefaultParser">
      <mime-exclude>image/jpeg</mime-exclude>
      <mime-exclude>application/pdf</mime-exclude>
      <parser-exclude class="org.apache.tika.parser.executable.ExecutableParser"/>
      <!-- property name="sortByPosition" value="True" -->
    </parser>
    <parser class="org.apache.tika.parser.EmptyParser">
      <mime>application/pdf</mime>
      <!-- here? -->
      <property name="sortByPosition" value="True"/>  # this statement is for preserving the order
    </parser>
  </parsers>
</properties>

和以下命令来阅读文本：

from tika import parser
data = parser.from_file(file_path, xmlContent=True,
                        config_path=/path/to/'tika_config.xml')

我做错了什么或者改变配置或保留顺序的方法是不可能的？

python - Tika python不保留pdf中文本的顺序

0 回答 0

Related

Reference