0

我看过这个链接: http : //www.lucidimagination.com/Community/Hear-from-the-Experts/Articles/Content-Extraction-Tika 我得到的是纯文本,没有来自 Tika 的任何样式供 Solr 搜索. 是否可以从 Solr 获得具有其样式的文本?换句话说,我们需要在 solr 搜索后以原始样式显示文本。

4

1 回答 1

0

如果您考虑一下,pdf中的“原始样式”是什么?您想保留“风格”的哪些组成部分?

不仅仅是字体和粗细,还有描边、填充、角度、路径、图形、跟踪、透明度、变换等等。如果你得到了所有这些,你会如何在你的 UI/Web 中显示它?

除了显示原始 PDF 之外,您无法真正复制原始样式。因此,如果他们想要原始格式,这就是人们通常这样做的方式。

否则,他们只使用纯文本。

于 2010-12-14T07:52:06.077 回答