3

我正在使用 python 构建一个应用程序,其中涉及从 RSS 提要获取新闻文章。作为我项目的一部分,我决定使用boilerpipe 来从出现文章的html 页面中提取文章内容。

尽管boilerpipe 最初是为java 编写的,但它也已被移植到python。你可以在这里看到它在 github 上的页面:https ://github.com/misja/python-boilerpipe

问题是我在尝试使用以下方法导入它时遇到异常:

from boilerpipe.extract import Extractor

我得到的错误是:

Traceback (most recent call last):
File "", line 1, in
File "build\bdist.win32\egg\boilerpipe\extract__init__.py", line 12, in
File "C:\Python26\lib\site-packages\jpype_jclass.py", line 54, in JClass
raise _RUNTIMEEXCEPTION.PYEXC("Class %s not found" % name)
jpype._jexception.ExceptionPyRaisable: java.lang.Exception: Class 
de.l3s.boilerpipe.sax.HTMLHighlighter not found

什么可能导致此问题,我该如何解决?

4

5 回答 5

4

这在 Mac OS X 10.8.5 和 Python 2.7.9 上对我有用:

pip install JPype1    # to install https://pypi.python.org/pypi/JPype1
pip install charade
git clone https://github.com/misja/python-boilerpipe.git
cd python-boilerpipe
sudo python setup.py install

然后你应该可以在 python 控制台中做

>>> from boilerpipe.extract import Extractor
>>> extractor = Extractor(extractor='ArticleExtractor', url="http://en.wikipedia.org/wiki/Main_Page")
>>> print extractor.getText()
于 2015-03-09T17:16:49.893 回答
1

以下对我最有效:

git clone https://github.com/misja/python-boilerpipe.git
cd python-boilerpipe
sudo python setup.py install

您可能必须:

  • 安装 JPype(在 Ubuntu 上安装 sudo apt-get install python-jpype)
  • 安装 charade (sudo pip install charade)

但是您不必安装boilerpipe JAVA jar,因为安装程序会为您加载它。

我尝试从 pip 安装 python 锅炉管,但没有运气。我成功运行了样板 java 代码,但一直收到同样的错误。

于 2014-10-21T18:05:40.673 回答
1

您缺少锅炉管道 java 包安装,您可以在这里找到它 - http://code.google.com/p/boilerpipe/downloads/list

你只需要安装 python 锅炉管包装器。

于 2012-09-15T17:19:31.283 回答
0

HTMLHighlighter找不到课程。你设置了JAVA_HOME吗?该文档指出:

请务必正确设置 JAVA_HOME,因为 jpype 取决于此设置。

于 2012-02-19T19:11:59.773 回答
0

我遇到过同样的问题。我看到了 Mining the web 的作者提供的设置细节。这是他的锅炉管 Github 页面的链接

https://github.com/misja/python-boilerpipe/blob/master/setup.py

于 2014-02-17T17:14:13.393 回答