我想从抓取的 html 网页中提取文本。我正在使用优秀的开源Boilerpipe库来做到这一点。但是,使用 Boilerpipe 我只能得到原始文本。除了原始文本之外,我还需要使用原始源格式信息捕获文本,并内联所有 css 样式信息。
有没有办法用 Boilerpipe 或任何其他 java 库来做到这一点,最好是开源的?
我想从抓取的 html 网页中提取文本。我正在使用优秀的开源Boilerpipe库来做到这一点。但是,使用 Boilerpipe 我只能得到原始文本。除了原始文本之外,我还需要使用原始源格式信息捕获文本,并内联所有 css 样式信息。
有没有办法用 Boilerpipe 或任何其他 java 库来做到这一点,最好是开源的?
我应该首先说我从未使用过 Boilerpipe ......甚至直到现在才听说过它。
但是看看网站和javadocs,我会说你不能用它来提取带有样式的文本。基本的概念问题是该样式将/可以如何表示。例如,BoilerpipeExtractor
接口有 4 个getText
方法,每个方法都将提取的文本作为字符串返回。您将如何表示字符串中的样式?您必须嵌入某种标记,但是...
所以,我的评估是,使用 Boilerpipe 来提取带有样式的文本是完全不可能的。因此,请选择您已经确定的其他替代方案。