1

我想从抓取的 html 网页中提取文本。我正在使用优秀的开源Boilerpipe库来做到这一点。但是,使用 Boilerpipe 我只能得到原始文本。除了原始文本之外,我还需要使用原始源格式信息捕获文本,并内联所有 css 样式信息。

有没有办法用 Boilerpipe 或任何其他 java 库来做到这一点,最好是开源的?

4

1 回答 1

1

我应该首先说我从未使用过 Boilerpipe ......甚至直到现在才听说过它。

但是看看网站和javadocs,我会说你不能用它来提取带有样式的文本。基本的概念问题是该样式将/可以如何表示。例如,BoilerpipeExtractor接口有 4 个getText方法,每个方法都将提取的文本作为字符串返回。您将如何表示字符串中的样式?您必须嵌入某种标记,但是...

  • 什么样的标记,以及
  • 您如何将其与接口的描述相协调,该描述表示方法返回“文本”......而不是“带有标记的文本”。

所以,我的评估是,使用 Boilerpipe 来提取带有样式的文本是完全不可能的。因此,请选择您已经确定的其他替代方案。

于 2012-06-10T03:58:52.970 回答