问题标签 [boilerpipe]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
462 浏览

java - 如何从网页中提取主要内容?

我正在尝试编写网页内容的摘要。为此,我需要从网页中提取所有不相关的文本和数据。

我用过boilerpipe,但是文本提取不好。结果在这里,你可以看到很多不相关的文本。

还尝试 JSoup 通过删除页眉、页脚、外部链接等来删除不相关的数据。但同样,结果并不达标。

谁能建议我如何完成这项工作?除了boilerpipe之外,还有其他Java库适合你吗?

0 投票
1 回答
236 浏览

java - 从 HTML 中提取文章的标题(使用 Boilerpipe)

Boilerpipe 允许从网页中提取文章的文本,清理所有的 HTML 混乱。但是,我怎样才能提取文章的标题?有一种方法可以只使用页面的标题,但它有时不正确并且包含不需要的词(例如“标题 - 站点名称”)。

<h1>另一个想法是在and之间查找文本</h1>,但我仍然认为我会提出更多解决方案。

0 投票
1 回答
93 浏览

java - 锅炉管有任何限制吗?

我想使用锅炉管道来抓取网站的所有文章(新闻)以进行数据挖掘。在锅炉管的演示页面中指出:

由于过去大量使用此免费服务,每个用户的请求数量有限

锅炉管库是否有任何限制,或者此限制适用于演示页面?

0 投票
1 回答
383 浏览

java - Android Studio:添加样板库后生成错误

我正在尝试使用 [boilerpipe][1] 来解析文本。我将boilerpipe-1.2.0.jar,nekohtml-1.9.13.jar和复制xerces-2.9.1.jar到 lib 文件夹并将它们添加为库。但是当我尝试运行该项目时,我得到了一个巨大的错误。这是它的结尾部分-

这是我的应用程序 build.gradle

这是带有 --debug 选项的输出

0 投票
1 回答
231 浏览

java - Android Studio:来自boilerpipe的java.lang.NoClassDefFoundError

我正在尝试使用锅炉管来获取诸如袖珍应用程序之类的文本文章。应用程序编译正确,但运行时异常:

以下是我已经尝试过的事情:

  1. 清理并构建项目
  2. 毕业清洁
  3. 通过不同的方法添加库

我看到相同的错误已发布在 github 上。

这是我的 build.gradle:

0 投票
1 回答
135 浏览

ruby - 宝石安装没有找到现有的宝石

运行 gem install 时,我得到以下信息:

如果我创建一个 Gemfile 并使用 bundler 安装一切正常:

网络访问似乎不是问题 - 尝试从 MRI ruby​​ 安装结果相同。其他人见过这个吗?

0 投票
1 回答
2220 浏览

html - Apache Tika 如何提取没有页眉和页脚内容的 html 正文

我希望提取除页眉和页脚之外的 html 的整个正文内容,但是我遇到了异常

org.xml.sax.SAXException:命名空间http://www.w3.org/1999/xhtml未声明

下面是我创建的代码,如

我得到的例外是

虽然我知道根据TIKA-1215我们不应该包装内容处理程序,但我没有看到任何解决此问题的替代方法,因为简单的 bodycontenthandler 没有帮助,我验证了很多类似于此的 stackoverflow 案例,但我不能在任何地方都找不到解决方案。非常感谢任何建议或解决方案或指针。

0 投票
1 回答
226 浏览

pyspark - 使用带有 pyspark 的锅炉管

我正在使用锅炉管从 html 中获取文本。但是,有一些问题我无法解决。我有一个 50k 元素的列表。我正在创建一个 1000 个元素的 rdd,然后处理它们并将生成的 rdd 保存在 hdfs 中。我遇到的错误是这样的:

在 hdfs 文件中,前 1000 个元素的结果被保存,但继续它会引发上述错误。有什么办法解决这个问题?

0 投票
2 回答
309 浏览

java - 无法两次读取相同的 InputStream

这是我的代码:

我不明白为什么只有第一个提取器起作用。

在这种情况下,只有Boilerpipe(第一个提取器)工作,而Apache Tika(第二个提取器)无法提取任何东西。

我试图创建fileStream(via InputStream fileStream2 = fileStream;) 的副本并传递fileStream给一个读者和fileStream2另一个读者,但它也不起作用。

fileStream我还尝试将从和Tika中提取的 HTML 传递给 Boilerpipe fileStream,但结果是一样的。

我怀疑问题是InputStream不能读两次。

你能帮我如何传递 1InputStream到 2 位读者的内容吗?

编辑: 我找到了解决方案并将其发布在下面

0 投票
1 回答
1182 浏览

python - 未找到 Python 3 Unicode

我知道 unicode 在 python 3 中已更改为 str 但无论我如何编写此代码,我都会遇到同样的问题,谁能告诉我为什么?

我将锅炉管用于一组特定的网络爬虫:

错误: