问题标签 [boilerpipe]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
112 浏览

java - 在 intelliJ idea 中实例化 servlet 类时出错

我正在使用intellij开发我的Web应用程序,使用boilerpipe jar创建这样的应用程序但我在实例化servlet类时出错..这是我的servlet代码

0 投票
1 回答
969 浏览

servlets - How to get result of BoilerPipe extraction in HTML instead of plain text

I'm using the following code to extract the textual contents from the web pages, my app is hosted on Google App Engine and works exactly like BoilerPipe Web API. The problem is that I can only get the result in plain text format. I played around the library to find a work around, but I couldn't find a method to display the result in HTML. What I am trying to have is to include a option like HTML (extract mode) as in the original BoilerPipe Web API here.

This is the code I'm using for extracting the plain text.

How can I include the feature for displaying the result in HTML form?

0 投票
1 回答
10014 浏览

java - ClassNotFoundException:org.apache.xerces.parsers.AbstractSAXParser 使用锅炉管时

我很新boilerpipe,我正在尝试以下基本代码:

但是在尝试运行上述代码时出现以下错误:

我用谷歌搜索了这个错误并发现了这个链接。我以为我xercesImpl.jar在依赖项中丢失了。我包含了相同的内容,但我的代码仍然给出了相同的错误。问题是什么?

0 投票
0 回答
147 浏览

java - Boilerpipe API 获取不重要的文本

目前,我正在尝试使用boilerpipe APl 从新闻文章中提取文本。但是,它并不完全有效。例如,请参阅此链接。尽管boilerpipe 获取了所有主要文本,但它也获取了一些不重要的文本,例如“在Facebook Messenger 上与我们聊天”。是否有任何可行的锅炉管替代品,或者有没有办法配置锅炉管以便更好地找到主要文章文本?

0 投票
2 回答
336 浏览

maven - 未找到 Boilerpipe 依赖项

根据https://github.com/Netbreeze-GmbH/boilerpipe,锅炉管道的 Maven 依赖项是

但是这种依赖不能通过 Maven 获得。我发现最接近的是http://search.maven.org/#search%7Cgav%7C1%7Cg%3A%22de.l3s.boilerpipe%22%20AND%20a%3A%22boilerpipe%22这个依赖是版本 1.1.0 。如何添加依赖项 1.2.2?

更新 :

我在这个位置找到了依赖:https ://mvnrepository.com/artifact/com.syncthemall/boilerpipe/1.2.2

0 投票
2 回答
1497 浏览

python - Python锅炉管道安装问题

我正在尝试在我的 Ubuntu 14 中安装Python Boilerpipe。它失败并出现以下错误:

这些是我正在遵循的步骤:

0 投票
0 回答
173 浏览

python - 即使在任务完成后,Python 多处理进程也不会被杀死

我编写了一个 python 脚本,该脚本将从 Amazon SQS 中读取,并根据用户的需要创建尽可能多的并行进程。它继承了 Django BaseCommand,这就是代码。

这工作正常,一旦任务完成,所有进程都会被杀死。但不适用于一项特定的活动,我使用锅炉管来提取一些数据。

当我查看boilepipe代码时,我可以看到,在Extractor的构造函数中有这段代码,

完整的代码是这个

  1. 为什么进程没有被杀死,我的多处理方式有问题吗?
  2. 还是这个线程锁定正在造成问题(我不确定,只是在考虑所有可能的问题)。

请指教,先谢谢了。

0 投票
2 回答
1125 浏览

python - Boilerpipe-py3 的安装尝试给出 404 错误

Boilerpipe 是一个很棒的用于清理网页的 Java 程序,我过去曾使用过它。我今天注意到许多用户无法安装 Python 包装器版本并得到 404 和其他错误。这是我从 conda 复制的尝试之一。

/Users/duncan>sudo -H pip install https://pypi.python.org/packages/source/b/boilerpipe-py3/boilerpipe-py3-1.2.0.0.tar.gz 收集https://pypi.python。 org/packages/source/b/boilerpipe-py3/boilerpipe-py3-1.2.0.0.tar.gz 下载boilerpipe-py3-1.2.0.0.tar.gz (1.3MB) 100% |███████████████████████████████ █| 1.3MB 436kB/s 命令 python setup.py egg_info 的完整输出:回溯(最近一次调用最后):文件“”,第 1 行,文件“/tmp/pip-r6swd0hy-build/setup.py”,第 33 行,在 download_jars(datapath=DATAPATH) 文件“/tmp/pip-r6swd0hy-build/setup.py”,第 26 行,在 download_jars urlretrieve(tgz_url, tgz_name) 文件“/Users/duncan/anaconda/lib/python3.5/urllib /request.py”,第 188 行,在 urlretrieve 中,使用 contextlib.closing(urlopen(url,data)) 作为 fp:文件“/Users/duncan/anaconda/lib/python3.5/urllib/request.py”,第 163 行,在 urlopen 返回 opener.open(url, data, timeout) 文件“/Users/duncan/anaconda/lib/python3.5/urllib/request.

命令“python setup.py egg_info”在 /tmp/pip-r6swd0hy-build/ 中失败,错误代码为 1

我见过几个对我不起作用的解决方案(例如:谷歌更改了模块的 URL)如果有人有解决方案,我将不胜感激!

我的平台是 16GB El Capitan,但我在 Ubuntu 和其他平台上看到过这个报告。感谢您在这里的任何帮助!

0 投票
1 回答
135 浏览

java - 如何使用样板从 HTML 中获取文章的主要内容?

我正在尝试使用样板代码从 HTML 中获取文章的主要内容。

从这里下载了最新的 jars 。

我正在尝试使用以下代码:

但这会为每个 URL 返回一个空字符串。谁可以帮我这个事?

0 投票
0 回答
568 浏览

java - 如何在网页中总结一篇文章的主要内容?

我正在尝试为 HTML 页面编写文章摘要器。到目前为止,我已经使用了boilerpipeclassifier4J

但大多数时候代码并没有产生预期的结果,因为句子结构没有正确完成。

我正在尝试实现像http://smmry.com/这样简洁的东西。

有谁知道任何为你做这件事的java库?