问题标签 [boilerpipe]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

77 问题

0 投票

1 回答

462 浏览

java - 如何从网页中提取主要内容？

我正在尝试编写网页内容的摘要。为此，我需要从网页中提取所有不相关的文本和数据。

我用过boilerpipe，但是文本提取不好。结果在这里，你可以看到很多不相关的文本。

还尝试 JSoup 通过删除页眉、页脚、外部链接等来删除不相关的数据。但同样，结果并不达标。

谁能建议我如何完成这项工作？除了boilerpipe之外，还有其他Java库适合你吗？

java jsoup extraction boilerpipe

2016-10-21T05:06:00.480

0 投票

1 回答

236 浏览

java - 从 HTML 中提取文章的标题（使用 Boilerpipe）

Boilerpipe 允许从网页中提取文章的文本，清理所有的 HTML 混乱。但是，我怎样才能提取文章的标题？有一种方法可以只使用页面的标题，但它有时不正确并且包含不需要的词（例如“标题 - 站点名称”）。

<h1>另一个想法是在and之间查找文本</h1>，但我仍然认为我会提出更多解决方案。

java html html-content-extraction boilerpipe

2016-10-21T08:27:09.347

0 投票

1 回答

93 浏览

java - 锅炉管有任何限制吗？

我想使用锅炉管道来抓取网站的所有文章（新闻）以进行数据挖掘。在锅炉管的演示页面中指出：

由于过去大量使用此免费服务，每个用户的请求数量有限

锅炉管库是否有任何限制，或者此限制适用于演示页面？

java boilerpipe

2016-11-16T13:42:53.197

0 投票

1 回答

383 浏览

java - Android Studio：添加样板库后生成错误

我正在尝试使用 [boilerpipe][1] 来解析文本。我将boilerpipe-1.2.0.jar,nekohtml-1.9.13.jar和复制xerces-2.9.1.jar到 lib 文件夹并将它们添加为库。但是当我尝试运行该项目时，我得到了一个巨大的错误。这是它的结尾部分-

这是我的应用程序 build.gradle

这是带有 --debug 选项的输出

java android-gradle-plugin android-studio-2.2 boilerpipe

2016-11-23T07:45:55.217

0 投票

1 回答

231 浏览

java - Android Studio：来自boilerpipe的java.lang.NoClassDefFoundError

我正在尝试使用锅炉管来获取诸如袖珍应用程序之类的文本文章。应用程序编译正确，但运行时异常：

以下是我已经尝试过的事情：

清理并构建项目
毕业清洁
通过不同的方法添加库

我看到相同的错误已发布在 github 上。

这是我的 build.gradle：

java android android-studio web-scraping boilerpipe

2016-11-24T08:11:21.330

0 投票

1 回答

135 浏览

ruby - 宝石安装没有找到现有的宝石

运行 gem install 时，我得到以下信息：

如果我创建一个 Gemfile 并使用 bundler 安装一切正常：

网络访问似乎不是问题 - 尝试从 MRI ruby 安装结果相同。其他人见过这个吗？

ruby rubygems jruby boilerpipe

2017-02-11T16:14:36.807

0 投票

1 回答

2220 浏览

html - Apache Tika 如何提取没有页眉和页脚内容的 html 正文

我希望提取除页眉和页脚之外的 html 的整个正文内容，但是我遇到了异常

org.xml.sax.SAXException：命名空间http://www.w3.org/1999/xhtml未声明

下面是我创建的代码，如在

我得到的例外是

虽然我知道根据TIKA-1215我们不应该包装内容处理程序，但我没有看到任何解决此问题的替代方法，因为简单的 bodycontenthandler 没有帮助，我验证了很多类似于此的 stackoverflow 案例，但我不能在任何地方都找不到解决方案。非常感谢任何建议或解决方案或指针。

html parsing apache-tika boilerpipe

2017-03-03T21:53:00.150

0 投票

1 回答

226 浏览

pyspark - 使用带有 pyspark 的锅炉管

我正在使用锅炉管从 html 中获取文本。但是，有一些问题我无法解决。我有一个 50k 元素的列表。我正在创建一个 1000 个元素的 rdd，然后处理它们并将生成的 rdd 保存在 hdfs 中。我遇到的错误是这样的：

在 hdfs 文件中，前 1000 个元素的结果被保存，但继续它会引发上述错误。有什么办法解决这个问题？

pyspark py4j jpype boilerpipe

2017-09-19T13:24:22.327

0 投票

2 回答

309 浏览

java - 无法两次读取相同的 InputStream

这是我的代码：

我不明白为什么只有第一个提取器起作用。

在这种情况下，只有Boilerpipe（第一个提取器）工作，而Apache Tika（第二个提取器）无法提取任何东西。

我试图创建fileStream(via InputStream fileStream2 = fileStream;) 的副本并传递fileStream给一个读者和fileStream2另一个读者，但它也不起作用。

fileStream我还尝试将从和Tika中提取的 HTML 传递给 Boilerpipe fileStream，但结果是一样的。

我怀疑问题是InputStream不能读两次。

你能帮我如何传递 1InputStream到 2 位读者的内容吗？

编辑： 我找到了解决方案并将其发布在下面

java inputstream apache-tika boilerpipe

2017-11-29T19:02:16.510

0 投票

1 回答

1182 浏览

python - 未找到 Python 3 Unicode

我知道 unicode 在 python 3 中已更改为 str 但无论我如何编写此代码，我都会遇到同样的问题，谁能告诉我为什么？

我将锅炉管用于一组特定的网络爬虫：

错误：

python unicode boilerpipe

2018-01-12T22:03:49.413

1 2 3 4 5 6 7 8 9 10