问题标签 [boilerpipe]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

77 问题

0 投票

1 回答

1671 浏览

java - 锅炉管网络 API

我想托管我自己版本的 Boilerpipe Web API (http://code.google.com/p/boilerpipe/)。apppot 网站是http://boilerpipe-web.appspot.com/

我想自己托管它。有人可以指导我如何使用 Boilerpipe JAR 创建网页吗？

java boilerpipe

2011-04-17T20:43:43.993

0 投票

1 回答

1213 浏览

javascript - 卡在锅炉管上

对这个实用程序相当兴奋，但在实施时遇到了一些问题。安装了它，但在服务器上执行 HTML 文件没有得到任何结果。URL 代码的语法错误。

编辑 =====> 此代码似乎有效。

2011-05-03T10:46:20.357

0 投票

2 回答

1986 浏览

java - 安装锅炉管的麻烦

这是我第三次安装它。我让它在 Windows 上运行，直到几天前在 Linux 上运行。我已经做了所有我能做的，但我不明白如何运行这个 Java 程序。

源代码是一个包含 lib、src 一些 jar 以及类路径和项目文件的文件夹。类路径文件进行了一些声明，例如 classpathentry=src/main 和 path=lib, path=src。

所有这些都是有道理的。“src”中有一个文件夹“main”。

我试图运行的小文件开始于

import de.l3s.boilerpipe.demo

我正在尝试运行“Oneliner.java”。我无法编译它。

无论该类文件是什么/在哪里，我都无法运行它。它会导致 noclassdeffound。我已经在 main、src、root、demo、...任何地方运行它。我尝试在不同的目录中编译它，并使用推荐的各种 java 命令行开关运行它。假设你可以让它“搜索”文件，我还没有体验过。这个java环境的固执是可怕的。对我来说是极大的羞辱。

java classpath javac src boilerpipe

2011-10-31T03:28:19.533

0 投票

1 回答

3468 浏览

java - 如何使用带有本地 html 文件的锅炉管？

我的本地磁盘上有一个 html 文件，我想使用 BoilerPipe 从中提取文本。

ExtractorBase 类中的“getText”方法接受读者，所以我写道：

但是后来我得到一个指向第二行代码的错误。

有什么线索吗？谢谢！

编辑：整个错误消息是：

java html-content-extraction boilerpipe

2011-11-28T11:57:30.713

0 投票

4 回答

2267 浏览

c# - .net 有锅炉管端口吗？

有人知道锅炉管库的 .net 端口吗？

c#.net text-extraction html-content-extraction boilerpipe

2012-01-02T20:42:55.537

0 投票

5 回答

4197 浏览

python - 在 python 中导入锅炉管道时遇到问题

我正在使用 python 构建一个应用程序，其中涉及从 RSS 提要获取新闻文章。作为我项目的一部分，我决定使用boilerpipe 来从出现文章的html 页面中提取文章内容。

尽管boilerpipe 最初是为java 编写的，但它也已被移植到python。你可以在这里看到它在 github 上的页面：https ://github.com/misja/python-boilerpipe

问题是我在尝试使用以下方法导入它时遇到异常：

我得到的错误是：

什么可能导致此问题，我该如何解决？

python rss article boilerpipe

2012-02-19T19:07:46.747

0 投票

2 回答

1929 浏览

java - 如何使用 Boilerpipe 从网页中提取新闻内容？

我需要从网页中提取主要新闻内容。我在互联网上搜索并找到了一个名为 Boilerpipe 的 API，可免费用于该目的http://boilerpipe-web.appspot.com/但我无法找到任何实现使用 Boilerpipe 的 java。谁能告诉我如何在 Java 中使用 Boilerpipe 来提取新闻内容或给我一些指向 java 中的实现的链接，这些实现利用 Boilerpipe 从新闻网页中提取内容？

java web html-parsing web-scraping boilerpipe

2012-04-08T19:04:48.163

0 投票

1 回答

645 浏览

java - 如何在 Windows 上安装 Boilerpipe？

谁能告诉我如何在带有 Netbeans 的 Windows 上使用锅炉管？如果您能给我一些 java 代码来开始它，我将不胜感激。

java netbeans web-scraping web-mining boilerpipe

2012-04-09T12:02:42.077

0 投票

1 回答

453 浏览

java - 使用内联 CSS 提取 HTML 文章文本

我想从抓取的 html 网页中提取文本。我正在使用优秀的开源Boilerpipe库来做到这一点。但是，使用 Boilerpipe 我只能得到原始文本。除了原始文本之外，我还需要使用原始源格式信息捕获文本，并内联所有 css 样式信息。

有没有办法用 Boilerpipe 或任何其他 java 库来做到这一点，最好是开源的？

java extraction boilerpipe

2012-06-10T02:40:04.510

0 投票

1 回答

2125 浏览

web-scraping - 如何从锅炉管道文章提取器运行和获取文档统计信息？

关于锅炉管的 ArticleExtractor 类的使用，我不太了解。虽然，我对 java 也很陌生，所以也许我对这个环境的基本知识有问题。

无论如何，我正在尝试使用锅炉管从我收集的一些原始 html 源中提取主要文章。html 源文本存储在具有网页原始 HTML 内容的 java.lang.String 变量（我们称之为 htmlstr）变量中。

我知道如何运行boilerpipe将提取的文本打印到输出窗口，如下所示：

但是，我不确定如何通过首先实例化 ArticleExtractor 类的实例，然后使用“TextDocument”输入数据类型调用它来运行 BP。TextDocument 数据类型本身是以某种方式从 BP 的“TextBlock”数据类型构建的，也许我没有正确执行此操作......

从我的 htmlstr 字符串变量构造 TextDocument 类型变量的正确方法是什么？

所以我的问题是除了按照上面的示例调用 ArticleExtractor getText 方法之外，使用 BP 的 Article Extractor 类的处理方法。换句话说，我不确定如何使用

方法。

据我了解，需要运行此 ArticleExtractor 流程方法，然后才能使用相同的“TextDocument doc”变量来获取文档统计信息，使用 BP 的

方法？我想使用统计数据来确定估计过滤的效果如何。

有人可以帮助我的任何代码示例吗？

web-scraping html-content-extraction boilerpipe

2012-06-25T21:10:56.407

1 2 3 4 5 6 7 8 9 10

问题标签 [boilerpipe]

Reference