1

如何.tex使用 Apache Tika 从文件中提取文本?示例文件位于http://www.tug.org/texshowcase/EulerGibbsDuhem.tex

Tika 能够正确检测内容类型,application/x-tex但不会从中提取任何内容。

我试过命令

java -jar tika-app-0.9.jar -t EulerGibbsDuhem.tex

以及以下代码片段:

File file = new File(fileName);
Tika tika = new Tika();
String mimeType = tika.detect(file);
pageContent = tika.parseToString(file);
4

1 回答 1

0

Tika 支持检测 .tex 文件扩展名,但目前还没有解析器,抱歉。

如果你能找到一个好的 Java 库(最好是 Apache 许可的)来解析 .tex 文件,那么我建议你在 Tika JIRA 中打开一个新的增强请求(https://issues.apache.org/jira/browse/TIKA ) 并请求基于该库的 Tex Parser。

于 2011-03-31T22:01:09.823 回答