我正在用tika server v1.20
.
Tika 在正文中添加了 [bookmark: xx] 和 [image: xx]。我不想要他们。
样本输出:
天才大脑如何学习 David A. Sousa [图片:天才大脑如何学习] 欢迎来到我们的第三届年度 GATE 家庭图书研究。
复制:
运行服务器 -
java -jar tika-server-1.20.jar -p 5000
放http://localhost:5000/tika
将文件附加为二进制文件和content-type
:application/vnd.openxmlformats-officedocument.wordprocessingml.document
\[(image:|bookmark:).*?\]
由于以下情况,使用正则表达式删除此标签是有问题的:
[image: **[1].jpg]
如何使用 tika 服务器而不产生这个标签?如果不可能,如何删除它们?