问题标签 [boilerpipe]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
101 浏览

python - 忽略锅炉管 python 包装器 web 提取器的 SSL 验证?

我正在尝试从许多没有 SSL 认证的站点中提取数据。我正在使用锅炉管道 python 包装器来提取没有 HTML 的文本并将其写入文本文件。

我了解如何在请求库中删除 SSL 认证要求,但在锅炉管道方面我似乎找不到解决方案。Boilerpipe 是一个了不起的 Java 库,用于为 NLP 准备抓取的数据,所以我希望能够在 Python 中使用它。

这是我正在运行的代码:

这是我认为导致问题的错误(SSL认证):

0 投票
2 回答
375 浏览

python - 为什么我不能 pip 安装 Python3 包?

我是使用 Windows 10、64 的 Python (3) 新手。尝试安装软件包时,我收到下面粘贴的长错误消息。我应该怎么办?


我还尝试了以下方法: pip install --upgrade pip. 我也收到了一条很长的错误消息,以

0 投票
1 回答
323 浏览

python-3.x - 尝试为 Python 安装boilerpipe3 有什么问题?

我希望在三个场所(PC 或服务器)为 Python 安装boilerpipe3。每个场地都运行 Windows 10、Python 3,并且每个场地都设置了几乎相同的环境。我已经设法在两个场所安装了boilerpipe3(通过pip install),但在第三个场所一直遇到问题。我很难理解这次的问题是什么。

这是我在安装了 Python 3 且完全正常工作的 Windows 10 PC 上尝试通过 pip install 安装boilerpipe3 时收到的错误消息(经过几条注释)。

笔记:

我意识到 JPype1-py3 的要求似乎已被弃用,取而代之的是 JPype1 0.6.3,所以我继续正确安装它,然后尝试 pip installboilerpipe3,但这不起作用。

我还确保我安装了最新版本的 pip==19.1.1、setuptools==41.0.1 和 wheel==0.33.4。更新所有这些并没有解决问题。

此外,我还安装了 Visual Studio Code 1.23.1 和 Visual Studio Build Tools 2019 16.1.1。我还安装了 Java\jdk\12.0.1,系统变量路径设置为 C:\Program Files\Java\jdk-12.0.1\bin,JAVA_HOME 环境变量设置为 C:\Program Files\Java\jdk- 12.0.1\bin。

这是很多信息,但我必须确保所有这些都已到位,以使锅炉管 3 在其他两个场所工作。

进一步说明:

我还想知道 mingw-w64 包是否导致任何问题,所以我尝试删除它以及与之相关的所有路径和变量,但这也没有导致锅炉管 3 正确安装。

这是我在尝试 pip installboilerpipe3 时收到的错误消息:

我很难理解是什么问题导致它无法正确安装,特别是因为到目前为止我已经设法将它安装在其他两个场所!我将不胜感激任何有助于安装和工作的帮助!谢谢!

0 投票
0 回答
109 浏览

java - Tomcat 应用程序为 WEB-INF/lib 中的 Jar 抛出 java.lang.ClassNotFoundException

我正在尝试添加 Boilerpipe 来对我的 Tomcat 项目进行网络抓取,但是当我这样做时,我往往会遇到问题。我将 jar 以及必要的资源(nekohtml-1.9.13.jar 和 xerces-2.9.1.jar)添加到我的 Web-INF/lib 文件夹并作为项目结构中的外部库。

但是,每次我尝试部署应用程序时,我都会java.io.ClassNotFoundException从 Tomcat 构建一段时间,但我不知道为什么。具体来说,Tomcat 告诉我访问被拒绝,但我不知道这可能意味着什么,因为它很容易访问同一文件夹中的其他 Jar。

这是Tomcat错误的完整堆栈跟踪

我还在某处读到,在 WEB-INF/lib 文件夹中复制 Tomcat 的现有库是不好的,但我不确定我是否这样做了。这是我的 lib 文件夹中的内容:(其中大部分是由 IntelliJ 自动导入的)

任何帮助将不胜感激。

谢谢。

0 投票
0 回答
41 浏览

c# - 从 URL 获取 HTML 时出现异常

我正在尝试从 URL 获取 HTML,以便可以使用 Boilerpipe 将其剥离。但是,我不断收到异常。我正在使用 NewsAPI 来获取我的 URL。这是相关的代码片段:

这是异常的详细信息:

0 投票
1 回答
19 浏览

java - 使用锅炉管道抓取 TripAdvisor 时不受支持的浏览器代理

我正在编写一个通用的网络爬虫,它从给定的网页获取主要内容(它必须爬取不同的页面)。

我尝试使用不同的工具来实现这一点,其中包括:

  • HtmlUnit : 爬行时返回给我太多的废料。
  • 本质:很多页面的重要信息都无法获取。
  • Boilerpipe:成功检索内容,几乎完美的结果,但是:

当我尝试抓取 TripAdvisor 之类的页面而不是给定的网页 html 时,它会返回以下消息:

我们注意到您使用的是不受支持的浏览器。Tripadvisor 网站可能无法正常显示。我们支持以下浏览器:Windows:Internet Explorer、Mozilla Firefox、Google Chrome。苹果电脑:Safari。

我正在使用用户代理: private final static String USER_AGENT = "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html)

我也尝试过使用不同的用户代理,甚至是移动的,但我总是得到同样的错误,它可能与 Javascript 有关吗?

如果需要,我的代码如下:

0 投票
0 回答
5 浏览

internal-server-error - 尝试提取 url 内容时出现 Boilerpipe 服务器错误

我正在尝试使用锅炉管从给定的 url 中提取内容。当我尝试演示 ui 时,它返回服务器错误: 演示窗口

调用 api 时返回相同的错误。有没有人有同样的问题?是否与 API 密钥相关(如果是,如何获取?)。