问题标签 [boilerpipe]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
242 浏览

php - 从 HTML 或 PHP 源代码的网页中提取文章内容的最佳正则表达式或其他简单方法是什么?

有许多脚本从 html 页面中提取文章。如果使用正则表达式从 html 或 PHP 页面源中获取唯一的主要文章,什么是最好的正则表达式来仅获取主要文章。此外,仅在 PHP 或其他程序中获得那些没有正则表达式的最简单和最好的方法是什么。一些脚本使用许多过滤器从 html 或 PHP 源代码中提取主要文章,其中存在非英语语言、字符和多字节字符的问题。结果,由于上述问题,他们无法从源头上很好地获取主要文章的部分。

通常,主文章必须在 'div'、'p' 或 html 或 PHP 源代码中的其他标记中。然后,页面中的其他 html 元素带有导航、链接、提取和其他。使用正则表达式可以通过定义表达式中的多字节、字符和语言差异来轻松解决先前的问题。大多数文章提取软件使用过滤器来查找'comment'、first'、'next'、'nav'、'button'、'submit'等来检查他们持有的部分是内容还是其他元素。标签、id、类和其他标签很可能仅在英语和 ISO-西欧字符中有效。他们无法提取文章的确切部分,因为他们不理解他们试图过滤的语言或字符。

从文章提取脚本源锅炉管道使用的其他元素中过滤文章的以下算法正在使用;(如果您仔细检查“src”文件。)

  1. 检查字符是否足够长。(字数和字数)
  2. 检查标签是否在建议列表、评论、第一、下一个、导航等。(使用或不使用正则表达式的数组搜索)
  3. 其他检查以验证来自其他 html 元素、启发式和其他内容的文章。

有网页文章提取的理论,但并不比使用正则表达式简单。它们可以转换为简单的正则表达式或其他简单的程序。

用java写的boilerpipe提取文章,但是太复杂还有语言和字符的问题。最好同时使用几个正则表达式和其他一些正则程序来过滤文章。

我正在寻找的确切内容如下

正则表达式仅从 html 和 PHP 页面中提取文章。 使用少量正则表达式仅从 html 或 PHP 源中提取文章,而不使用任何其他元素和其他表达式来检查非文章的可能性。

仅从 html 和 PHP 页面中提取文章的非正则表达式。 使用 PHP 仅从 html 或 PHP 源代码中提取文章,而不使用正则表达式,以简单的方式。另外,需要检查文章是否。

它们都必须不受语言和字符集的限制,多字节和简单的示例足以容纳单个页面。

0 投票
1 回答
1564 浏览

python - ImportError:没有名为boilerpipe的模块

每次我调用以下代码时:

我收到错误说明:

我在virtualenv中调用此代码。当我在正常环境中调用它时,一切正常。

有什么建议么?谢谢

0 投票
0 回答
299 浏览

node.js - 在 Windows 上安装 nodejs 锅炉管模块?

我正在尝试在 Windows 7 上为锅炉管道安装节点 js 模块。但是 npm 结果出现以下错误。我也安装了node-gyp。

0 投票
1 回答
119 浏览

java - 使用 Boilerpipe 时如何解决 ConnectException 错误?

我想使用 Boilerpipe 从几个网站的新闻页面中提取文本,问题是每次尝试时,都会出现 ConnectionException 错误。我只是使用了boilerpipe快速入门指南中的示例语法:

这是连接错误:

我尝试了很多网站,但遇到了同样的错误。

我该如何解决这个问题,或者至少看看问题出在哪里?(也许是防火墙,或端口配置......)

0 投票
0 回答
626 浏览

java - 使用boilerpipe时如何避免服务器错误401(和403)?

我使用 BoilerPipe for Java 从互联网上提取一些文章。它适用于很多站点,但在几个站点中,当我不需要在我的网络浏览器中进行任何身份验证时,我得到一个 Http 401 服务器错误......

这是返回 401 错误的站点示例:http: //www.nature.com/nchem/journal/v7/n4/full/nchem.2206.html

我用这个来调用 ArticleExtractor:

这是错误:

通过探索堆栈跟踪,我发现问题发生在连接建立后(在 BoilerPipe 类中):

我在其他网站上也遇到了 403 错误,同时能够在我的网络浏览器上观看文章。如何避免这个问题?

谢谢 !

编辑-更新:我设法通过在打开连接后添加以下行来解决 403 错误问题:

但是我仍然没有解决401问题。我继续我的网络浏览器在标题中搜索信息,我发现即使浏览器出现 401 错误,但仍然可以获取信息。我做了一个打印屏幕:图片 http://img11.hostingpics.net/pics/757747error401.png

现在我什至不知道是否可以通过使用在我的网络浏览器上运行的 url 来获取文本......如果有人可以帮助我,那就太好了!:)

编辑 - 更新 2:我探索了网络并找到了几个返回 200 的链接(基本上与第一个链接相比有一些更改,但有很多 GET 参数)但它仍然返回 401 错误,所以我不知道该使用什么. 还有一些 302/303 重定向,没有更多结果。

编辑-更新3:也许改写它会使事情更清楚:有没有一种方法可以让我URLConnection像网络浏览器一样遵循请求的“路径”?

0 投票
0 回答
209 浏览

python - python中的锅炉管道导入错误

我已经在 python 中成功安装了 Boilerpipe 和 Jpype,但是在 Importing Boilerpipe 时出错

我该如何解决这个问题?

提前致谢

0 投票
4 回答
14878 浏览

java - 从 python 访问 JVM

尝试:重新安装jvm

编辑:尝试下面的代码,仍然卡住:

from py4j.java_gateway import JavaGateway gateway = JavaGateway() 它给出了与以前相同的错误。

0 投票
1 回答
160 浏览

java - java网络爬虫下载太多GB数据

我编写了一个网络爬虫。但是在抓取时,它会下载太多 GB 的数据。

我只想阅读文本(避免图像......等)。

我使用Boilerpipe从 html 中提取内容

这是我找到最终重定向网址的方法

这就是我获取网址的方式

并使用Boilerpipe获取身体

如何减少下载的数据量?

0 投票
1 回答
1228 浏览

python - pip installboilerpipe 因 tarfile 失败。ReadError:空文件

我试图通过 pip 安装锅炉管,但它失败了。

这是日志。

命令 python setup.py egg_info 的完整输出:

命令“python setup.py egg_info”在 /tmp/pip-build-J2gFYC/boilerpipe 中失败,错误代码为 1

0 投票
0 回答
101 浏览

python - Boilerpipe导入错误urllib2

我成功安装了 JPype 和 Boilerpipe Python 包装器。

我的 JAVA_HOME 路径是正确的(据我所知)。

我使用以下代码创建了一个 python 文件:

运行时出现此错误python3 boiler_test.py

我该如何解决这个问题?

谢谢你。