https://github.com/chrismatmann/tika-python文档中的优秀 lib tika-python表明可以设置 tika_server.jar 文件以避免在每次使用算法时下载。有没有人这样做并且可以发布配置?
第一次使用该算法时,会下载 tika_server.jar,以便 lib 可以使用它。我想通过在本地设置文件来避免这种下载。
从 PDF 中提取文本
def extraiPDF(f):
resultado = []
tika.TikaClientOnly = True
raw = parser.from_file(f)
metadados = raw["metadata"]
conteudo = raw["content"]
conteudo = (conteudo).replace('\n', '').replace('\r\n', '').replace('\r', '').replace('\\', '').replace('\t', ' ')
resultado.append(conteudo)
resultado.append(metadados)
return resultado