问题标签 [boilerpipe]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 锅炉管网络 API
我想托管我自己版本的 Boilerpipe Web API (http://code.google.com/p/boilerpipe/)。apppot 网站是http://boilerpipe-web.appspot.com/
我想自己托管它。有人可以指导我如何使用 Boilerpipe JAR 创建网页吗?
javascript - 卡在锅炉管上
对这个实用程序相当兴奋,但在实施时遇到了一些问题。安装了它,但在服务器上执行 HTML 文件没有得到任何结果。URL 代码的语法错误。
编辑 =====> 此代码似乎有效。
?>
java - 安装锅炉管的麻烦
这是我第三次安装它。我让它在 Windows 上运行,直到几天前在 Linux 上运行。我已经做了所有我能做的,但我不明白如何运行这个 Java 程序。
源代码是一个包含 lib、src 一些 jar 以及类路径和项目文件的文件夹。类路径文件进行了一些声明,例如 classpathentry=src/main 和 path=lib, path=src。
所有这些都是有道理的。“src”中有一个文件夹“main”。
我试图运行的小文件开始于
import de.l3s.boilerpipe.demo
我正在尝试运行“Oneliner.java”。我无法编译它。
无论该类文件是什么/在哪里,我都无法运行它。它会导致 noclassdeffound。我已经在 main、src、root、demo、...任何地方运行它。我尝试在不同的目录中编译它,并使用推荐的各种 java 命令行开关运行它。假设你可以让它“搜索”文件,我还没有体验过。这个java环境的固执是可怕的。对我来说是极大的羞辱。
java - 如何使用带有本地 html 文件的锅炉管?
我的本地磁盘上有一个 html 文件,我想使用 BoilerPipe 从中提取文本。
ExtractorBase 类中的“getText”方法接受读者,所以我写道:
但是后来我得到一个指向第二行代码的错误。
有什么线索吗?谢谢!
编辑:整个错误消息是:
c# - .net 有锅炉管端口吗?
有人知道锅炉管库的 .net 端口吗?
python - 在 python 中导入锅炉管道时遇到问题
我正在使用 python 构建一个应用程序,其中涉及从 RSS 提要获取新闻文章。作为我项目的一部分,我决定使用boilerpipe 来从出现文章的html 页面中提取文章内容。
尽管boilerpipe 最初是为java 编写的,但它也已被移植到python。你可以在这里看到它在 github 上的页面:https ://github.com/misja/python-boilerpipe
问题是我在尝试使用以下方法导入它时遇到异常:
我得到的错误是:
什么可能导致此问题,我该如何解决?
java - 如何使用 Boilerpipe 从网页中提取新闻内容?
我需要从网页中提取主要新闻内容。我在互联网上搜索并找到了一个名为 Boilerpipe 的 API,可免费用于该目的http://boilerpipe-web.appspot.com/但我无法找到任何实现使用 Boilerpipe 的 java。谁能告诉我如何在 Java 中使用 Boilerpipe 来提取新闻内容或给我一些指向 java 中的实现的链接,这些实现利用 Boilerpipe 从新闻网页中提取内容?
java - 如何在 Windows 上安装 Boilerpipe?
谁能告诉我如何在带有 Netbeans 的 Windows 上使用锅炉管?如果您能给我一些 java 代码来开始它,我将不胜感激。
java - 使用内联 CSS 提取 HTML 文章文本
我想从抓取的 html 网页中提取文本。我正在使用优秀的开源Boilerpipe库来做到这一点。但是,使用 Boilerpipe 我只能得到原始文本。除了原始文本之外,我还需要使用原始源格式信息捕获文本,并内联所有 css 样式信息。
有没有办法用 Boilerpipe 或任何其他 java 库来做到这一点,最好是开源的?
web-scraping - 如何从锅炉管道文章提取器运行和获取文档统计信息?
关于锅炉管的 ArticleExtractor 类的使用,我不太了解。虽然,我对 java 也很陌生,所以也许我对这个环境的基本知识有问题。
无论如何,我正在尝试使用锅炉管从我收集的一些原始 html 源中提取主要文章。html 源文本存储在具有网页原始 HTML 内容的 java.lang.String 变量(我们称之为 htmlstr)变量中。
我知道如何运行boilerpipe将提取的文本打印到输出窗口,如下所示:
但是,我不确定如何通过首先实例化 ArticleExtractor 类的实例,然后使用“TextDocument”输入数据类型调用它来运行 BP。TextDocument 数据类型本身是以某种方式从 BP 的“TextBlock”数据类型构建的,也许我没有正确执行此操作......
从我的 htmlstr 字符串变量构造 TextDocument 类型变量的正确方法是什么?
所以我的问题是除了按照上面的示例调用 ArticleExtractor getText 方法之外,使用 BP 的 Article Extractor 类的处理方法。换句话说,我不确定如何使用
方法。
据我了解,需要运行此 ArticleExtractor 流程方法,然后才能使用相同的“TextDocument doc”变量来获取文档统计信息,使用 BP 的
方法?我想使用统计数据来确定估计过滤的效果如何。
有人可以帮助我的任何代码示例吗?