如何.tex
使用 Apache Tika 从文件中提取文本?示例文件位于http://www.tug.org/texshowcase/EulerGibbsDuhem.tex
Tika 能够正确检测内容类型,application/x-tex
但不会从中提取任何内容。
我试过命令
java -jar tika-app-0.9.jar -t EulerGibbsDuhem.tex
以及以下代码片段:
File file = new File(fileName);
Tika tika = new Tika();
String mimeType = tika.detect(file);
pageContent = tika.parseToString(file);