问题标签 [boilerpipe]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 如何从网页中提取主要内容?
我正在尝试编写网页内容的摘要。为此,我需要从网页中提取所有不相关的文本和数据。
我用过boilerpipe,但是文本提取不好。结果在这里,你可以看到很多不相关的文本。
还尝试 JSoup 通过删除页眉、页脚、外部链接等来删除不相关的数据。但同样,结果并不达标。
谁能建议我如何完成这项工作?除了boilerpipe之外,还有其他Java库适合你吗?
java - 从 HTML 中提取文章的标题(使用 Boilerpipe)
Boilerpipe 允许从网页中提取文章的文本,清理所有的 HTML 混乱。但是,我怎样才能提取文章的标题?有一种方法可以只使用页面的标题,但它有时不正确并且包含不需要的词(例如“标题 - 站点名称”)。
<h1>
另一个想法是在and之间查找文本</h1>
,但我仍然认为我会提出更多解决方案。
java - Android Studio:添加样板库后生成错误
我正在尝试使用 [boilerpipe][1] 来解析文本。我将boilerpipe-1.2.0.jar
,nekohtml-1.9.13.jar
和复制xerces-2.9.1.jar
到 lib 文件夹并将它们添加为库。但是当我尝试运行该项目时,我得到了一个巨大的错误。这是它的结尾部分-
这是我的应用程序 build.gradle
这是带有 --debug 选项的输出
java - Android Studio:来自boilerpipe的java.lang.NoClassDefFoundError
我正在尝试使用锅炉管来获取诸如袖珍应用程序之类的文本文章。应用程序编译正确,但运行时异常:
以下是我已经尝试过的事情:
- 清理并构建项目
- 毕业清洁
- 通过不同的方法添加库
我看到相同的错误已发布在 github 上。
这是我的 build.gradle:
ruby - 宝石安装没有找到现有的宝石
运行 gem install 时,我得到以下信息:
如果我创建一个 Gemfile 并使用 bundler 安装一切正常:
网络访问似乎不是问题 - 尝试从 MRI ruby 安装结果相同。其他人见过这个吗?
html - Apache Tika 如何提取没有页眉和页脚内容的 html 正文
我希望提取除页眉和页脚之外的 html 的整个正文内容,但是我遇到了异常
org.xml.sax.SAXException:命名空间http://www.w3.org/1999/xhtml未声明
下面是我创建的代码,如在
我得到的例外是
虽然我知道根据TIKA-1215我们不应该包装内容处理程序,但我没有看到任何解决此问题的替代方法,因为简单的 bodycontenthandler 没有帮助,我验证了很多类似于此的 stackoverflow 案例,但我不能在任何地方都找不到解决方案。非常感谢任何建议或解决方案或指针。
pyspark - 使用带有 pyspark 的锅炉管
我正在使用锅炉管从 html 中获取文本。但是,有一些问题我无法解决。我有一个 50k 元素的列表。我正在创建一个 1000 个元素的 rdd,然后处理它们并将生成的 rdd 保存在 hdfs 中。我遇到的错误是这样的:
在 hdfs 文件中,前 1000 个元素的结果被保存,但继续它会引发上述错误。有什么办法解决这个问题?
java - 无法两次读取相同的 InputStream
这是我的代码:
我不明白为什么只有第一个提取器起作用。
在这种情况下,只有Boilerpipe(第一个提取器)工作,而Apache Tika(第二个提取器)无法提取任何东西。
我试图创建fileStream
(via InputStream fileStream2 = fileStream;
) 的副本并传递fileStream
给一个读者和fileStream2
另一个读者,但它也不起作用。
fileStream
我还尝试将从和Tika中提取的 HTML 传递给 Boilerpipe fileStream
,但结果是一样的。
我怀疑问题是InputStream
不能读两次。
你能帮我如何传递 1InputStream
到 2 位读者的内容吗?
编辑: 我找到了解决方案并将其发布在下面
python - 未找到 Python 3 Unicode
我知道 unicode 在 python 3 中已更改为 str 但无论我如何编写此代码,我都会遇到同样的问题,谁能告诉我为什么?
我将锅炉管用于一组特定的网络爬虫:
错误: