问题标签 [boilerpipe]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1021 浏览

php - 用于 php 的 html 文本提取

有一堆 HTML 文本提取工具。主要用于 Java 或 Python。我最常遇到的是锅炉管。这里和那里有一些 API,有些似乎工作得很好。有谁知道PHP中有什么可以做到这一点?

0 投票
2 回答
535 浏览

java - 锅炉管启动器问题

我是锅炉管的新手。我试图运行他们网站上给出的示例代码:

我已将所有必需的 jar 文件添加到类路径中,但是出现异常:

0 投票
1 回答
649 浏览

java - Boilerpipe - 如何输出 JSON?

我正在使用boilerpipe,它看起来很棒,但我想输出JSON。我正在使用 Java 版本并在 NetBeans 中进行如下测试:

谁能告诉我我该怎么做?

0 投票
1 回答
222 浏览

text-extraction - .net 中锅炉管的 HtmlHighlighter 并不总是返回文本

我在我的应用程序中使用 Boilerpipe,当我尝试使用 ArticleExtractor 提取内容时,我只获取平面文本,所有 html 格式都已被删除,所以我尝试使用 HtmlHighlighter。但是 HtmlHighlighter 的处理方法对于某些 url 失败。是否有任何选项可以使用 html 字符串传递给此方法?谁能解释一下?

0 投票
1 回答
436 浏览

java - Java - 在 Eclipse 中运行的 Boilerpipe 对于演示程序无法正常工作

所以我在eclipse中运行boilerpipe。我只是想让它工作,这是代码..

我不确定我是否在 Eclipse 中正确设置它,但我的控制台只是说...

0 投票
2 回答
846 浏览

.net - 如何从 NBoilerPipe 获取 HTML 输出?

NBoilerPipe 是 BoilerPipe Java 库的 Mono 端口。我已经设法在 .NET 4 中正常工作,没有太多麻烦(一些库引用需要修复/等)。但是,通过代码搜索,我找不到任何用于 HTML 输出的“钩子”。例如,GetText() 方法只有一个输入参数,我看不到任何其他方法。如何从 NBoilerPipe 获取 HTML 输出?

这是在 .NET4 中工作的示例 NBoilerPipe 代码:

0 投票
0 回答
646 浏览

java - 在python中运行boilerpipe库的麻烦

我尝试在 python 上使用boilerpipe 库,旨在从大学项目的页面中提取文本。我创建了一个简单的代码来进行提取:

当我尝试运行时遇到的错误是:

我已经检查了 JVM 和 JRE,它们已正确安装并设置了JAVA_HOME环境变量。

有人知道如何解决吗?

0 投票
0 回答
222 浏览

python - 确定字符串的类型

我正在寻找某种方法来确定来自任何文章网站的字符串类型,例如这个。类型可以是标题、作者、日期、文章本身。我使用 BeautifulSoup 和 Boilerpipe 来抓取相关内容:

现在我有一些看起来像这样的输出:

或这个:

我正在寻找任何方法来确定哪个标签包含标题字符串、作者字符串、发布日期和文章字符串(如果有)。
我在胡闹scrapy,但它不包含任何用于从不同站点获取此信息的通用算法。
我开始怀疑这样的事情是否可能,除了某种疯狂的评估字符串长度并希望标题标签总是比作者标签更多的字符,但少于文章标签。但这样想是非常幼稚的,输出可能非常不准确。
关于如何做的任何指示?

0 投票
0 回答
609 浏览

html - 使用boilerpipe从网页中提取内容时如何保留原始html格式?

我可以从我的 Android 应用程序的网页中提取标题和内容(段落),但有时无法获取图像。

但是,我找不到在提取器中保留其 html 格式参数(例如粗体、带有超链接、下划线或字体大小等)的方法。

也就是说,如果网页中的句子带有粗体、超链接或下划线,我该如何提取句子本身及其格式参数?

我试过这个页面:一篇Web-API和本地 jar 中的 API 撰写的文章。

我想使用本地 API 获得与 Web-API 相同的结果。

有人可以分享您对此问题的经验吗?

非常感谢,

詹姆士


编辑#1

以下是代码:


实际上,我所说的“失败”是指:

我可以从一些网站获取图像。但是,我无法在上面提到的这篇文章中获得图像。

0 投票
0 回答
1307 浏览

python - Boilerpipe python 包装器:ImportError: No module named extract

我成功安装了 JPype 和 Boilerpipe Python 包装器。

我的 JAVA_HOME 路径是正确的(据我所知)。

我使用以下代码创建了一个 python 文件:

运行时出现此错误python boilerpipe.py

我该如何解决这个问题?

非常感谢。

编辑

有趣的是,我将文件名从“boilerplate.py”更改为“test.py”,现在错误不同了:

这可能是什么原因造成的?

可能是在第一种情况下文件试图从自身导入?

任何人都知道是什么可能导致锅炉管道安装不良?