问题标签 [boilerpipe]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1671 浏览

java - 锅炉管网络 API

我想托管我自己版本的 Boilerpipe Web API (http://code.google.com/p/boilerpipe/)。apppot 网站是http://boilerpipe-web.appspot.com/

我想自己托管它。有人可以指导我如何使用 Boilerpipe JAR 创建网页吗?

0 投票
1 回答
1213 浏览

javascript - 卡在锅炉管上

对这个实用程序相当兴奋,但在实施时遇到了一些问题。安装了它,但在服务器上执行 HTML 文件没有得到任何结果。URL 代码的语法错误。

编辑 =====> 此代码似乎有效。

?>

0 投票
2 回答
1986 浏览

java - 安装锅炉管的麻烦

这是我第三次安装它。我让它在 Windows 上运行,直到几天前在 Linux 上运行。我已经做了所有我能做的,但我不明白如何运行这个 Java 程序。

源代码是一个包含 lib、src 一些 jar 以及类路径和项目文件的文件夹。类路径文件进行了一些声明,例如 classpathentry=src/main 和 path=lib, path=src。

所有这些都是有道理的。“src”中有一个文件夹“main”。

我试图运行的小文件开始于

import de.l3s.boilerpipe.demo

我正在尝试运行“Oneliner.java”。我无法编译它。

无论该类文件是什么/在哪里,我都无法运行它。它会导致 noclassdeffound。我已经在 main、src、root、demo、...任何地方运行它。我尝试在不同的目录中编译它,并使用推荐的各种 java 命令行开关运行它。假设你可以让它“搜索”文件,我还没有体验过。这个java环境的固执是可怕的。对我来说是极大的羞辱。

0 投票
1 回答
3468 浏览

java - 如何使用带有本地 html 文件的锅炉管?

我的本地磁盘上有一个 html 文件,我想使用 BoilerPipe 从中提取文本。

ExtractorBase 类中的“getText”方法接受读者,所以我写道:

但是后来我得到一个指向第二行代码的错误。

有什么线索吗?谢谢!

编辑:整个错误消息是:

0 投票
4 回答
2267 浏览

c# - .net 有锅炉管端口吗?

有人知道锅炉管库的 .net 端口

0 投票
5 回答
4197 浏览

python - 在 python 中导入锅炉管道时遇到问题

我正在使用 python 构建一个应用程序,其中涉及从 RSS 提要获取新闻文章。作为我项目的一部分,我决定使用boilerpipe 来从出现文章的html 页面中提取文章内容。

尽管boilerpipe 最初是为java 编写的,但它也已被移植到python。你可以在这里看到它在 github 上的页面:https ://github.com/misja/python-boilerpipe

问题是我在尝试使用以下方法导入它时遇到异常:

我得到的错误是:

什么可能导致此问题,我该如何解决?

0 投票
2 回答
1929 浏览

java - 如何使用 Boilerpipe 从网页中提取新闻内容?

我需要从网页中提取主要新闻内容。我在互联网上搜索并找到了一个名为 Boilerpipe 的 API,可免费用于该目的http://boilerpipe-web.appspot.com/但我无法找到任何实现使用 Boilerpipe 的 java。谁能告诉我如何在 Java 中使用 Boilerpipe 来提取新闻内容或给我一些指向 java 中的实现的链接,这些实现利用 Boilerpipe 从新闻网页中提取内容?

0 投票
1 回答
645 浏览

java - 如何在 Windows 上安装 Boilerpipe?

谁能告诉我如何在带有 Netbeans 的 Windows 上使用锅炉管?如果您能给我一些 java 代码来开始它,我将不胜感激。

0 投票
1 回答
453 浏览

java - 使用内联 CSS 提取 HTML 文章文本

我想从抓取的 html 网页中提取文本。我正在使用优秀的开源Boilerpipe库来做到这一点。但是,使用 Boilerpipe 我只能得到原始文本。除了原始文本之外,我还需要使用原始源格式信息捕获文本,并内联所有 css 样式信息。

有没有办法用 Boilerpipe 或任何其他 java 库来做到这一点,最好是开源的?

0 投票
1 回答
2125 浏览

web-scraping - 如何从锅炉管道文章提取器运行和获取文档统计信息?

关于锅炉管的 ArticleExtractor 类的使用,我不太了解。虽然,我对 java 也很陌生,所以也许我对这个环境的基本知识有问题。

无论如何,我正在尝试使用锅炉管从我收集的一些原始 html 源中提取主要文章。html 源文本存储在具有网页原始 HTML 内容的 java.lang.String 变量(我们称之为 htmlstr)变量中。

我知道如何运行boilerpipe将提取的文本打印到输出窗口,如下所示:

但是,我不确定如何通过首先实例化 ArticleExtractor 类的实例,然后使用“TextDocument”输入数据类型调用它来运行 BP。TextDocument 数据类型本身是以某种方式从 BP 的“TextBlock”数据类型构建的,也许我没有正确执行此操作......

从我的 htmlstr 字符串变量构造 TextDocument 类型变量的正确方法是什么?

所以我的问题是除了按照上面的示例调用 ArticleExtractor getText 方法之外,使用 BP 的 Article Extractor 类的处理方法。换句话说,我不确定如何使用

方法。

据我了解,需要运行此 ArticleExtractor 流程方法,然后才能使用相同的“TextDocument doc”变量来获取文档统计信息,使用 BP 的

方法?我想使用统计数据来确定估计过滤的效果如何。

有人可以帮助我的任何代码示例吗?