问题标签 [boilerpipe]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

77 问题

0 投票

1 回答

101 浏览

python - 忽略锅炉管 python 包装器 web 提取器的 SSL 验证？

我正在尝试从许多没有 SSL 认证的站点中提取数据。我正在使用锅炉管道 python 包装器来提取没有 HTML 的文本并将其写入文本文件。

我了解如何在请求库中删除 SSL 认证要求，但在锅炉管道方面我似乎找不到解决方案。Boilerpipe 是一个了不起的 Java 库，用于为 NLP 准备抓取的数据，所以我希望能够在 Python 中使用它。

这是我正在运行的代码：

这是我认为导致问题的错误（SSL认证）：

python boilerpipe

2018-03-19T19:14:35.093

0 投票

2 回答

375 浏览

python - 为什么我不能 pip 安装 Python3 包？

我是使用 Windows 10、64 的 Python (3) 新手。尝试安装软件包时，我收到下面粘贴的长错误消息。我应该怎么办？

我还尝试了以下方法： pip install --upgrade pip. 我也收到了一条很长的错误消息，以

2019-05-22T19:17:11.293

0 投票

1 回答

323 浏览

python-3.x - 尝试为 Python 安装boilerpipe3 有什么问题？

我希望在三个场所（PC 或服务器）为 Python 安装boilerpipe3。每个场地都运行 Windows 10、Python 3，并且每个场地都设置了几乎相同的环境。我已经设法在两个场所安装了boilerpipe3（通过pip install），但在第三个场所一直遇到问题。我很难理解这次的问题是什么。

这是我在安装了 Python 3 且完全正常工作的 Windows 10 PC 上尝试通过 pip install 安装boilerpipe3 时收到的错误消息（经过几条注释）。

笔记：

我意识到 JPype1-py3 的要求似乎已被弃用，取而代之的是 JPype1 0.6.3，所以我继续正确安装它，然后尝试 pip installboilerpipe3，但这不起作用。

我还确保我安装了最新版本的 pip==19.1.1、setuptools==41.0.1 和 wheel==0.33.4。更新所有这些并没有解决问题。

此外，我还安装了 Visual Studio Code 1.23.1 和 Visual Studio Build Tools 2019 16.1.1。我还安装了 Java\jdk\12.0.1，系统变量路径设置为 C:\Program Files\Java\jdk-12.0.1\bin，JAVA_HOME 环境变量设置为 C:\Program Files\Java\jdk- 12.0.1\bin。

这是很多信息，但我必须确保所有这些都已到位，以使锅炉管 3 在其他两个场所工作。

进一步说明：

我还想知道 mingw-w64 包是否导致任何问题，所以我尝试删除它以及与之相关的所有路径和变量，但这也没有导致锅炉管 3 正确安装。

这是我在尝试 pip installboilerpipe3 时收到的错误消息：

我很难理解是什么问题导致它无法正确安装，特别是因为到目前为止我已经设法将它安装在其他两个场所！我将不胜感激任何有助于安装和工作的帮助！谢谢！

python-3.x setuptools python-wheel jpype boilerpipe

2019-06-03T10:46:05.563

0 投票

0 回答

109 浏览

java - Tomcat 应用程序为 WEB-INF/lib 中的 Jar 抛出 java.lang.ClassNotFoundException

我正在尝试添加 Boilerpipe 来对我的 Tomcat 项目进行网络抓取，但是当我这样做时，我往往会遇到问题。我将 jar 以及必要的资源（nekohtml-1.9.13.jar 和 xerces-2.9.1.jar）添加到我的 Web-INF/lib 文件夹并作为项目结构中的外部库。

但是，每次我尝试部署应用程序时，我都会java.io.ClassNotFoundException从 Tomcat 构建一段时间，但我不知道为什么。具体来说，Tomcat 告诉我访问被拒绝，但我不知道这可能意味着什么，因为它很容易访问同一文件夹中的其他 Jar。

这是Tomcat错误的完整堆栈跟踪

我还在某处读到，在 WEB-INF/lib 文件夹中复制 Tomcat 的现有库是不好的，但我不确定我是否这样做了。这是我的 lib 文件夹中的内容：（其中大部分是由 IntelliJ 自动导入的）

任何帮助将不胜感激。

谢谢。

java tomcat boilerpipe

2020-04-09T06:57:12.243

0 投票

0 回答

41 浏览

c# - 从 URL 获取 HTML 时出现异常

我正在尝试从 URL 获取 HTML，以便可以使用 Boilerpipe 将其剥离。但是，我不断收到异常。我正在使用 NewsAPI 来获取我的 URL。这是相关的代码片段：

这是异常的详细信息：

c#boilerpipe

2020-05-28T14:56:04.343

0 投票

1 回答

19 浏览

java - 使用锅炉管道抓取 TripAdvisor 时不受支持的浏览器代理

我正在编写一个通用的网络爬虫，它从给定的网页获取主要内容（它必须爬取不同的页面）。

我尝试使用不同的工具来实现这一点，其中包括：

HtmlUnit : 爬行时返回给我太多的废料。
本质：很多页面的重要信息都无法获取。
Boilerpipe：成功检索内容，几乎完美的结果，但是：

当我尝试抓取 TripAdvisor 之类的页面而不是给定的网页 html 时，它会返回以下消息：

我们注意到您使用的是不受支持的浏览器。Tripadvisor 网站可能无法正常显示。我们支持以下浏览器：Windows：Internet Explorer、Mozilla Firefox、Google Chrome。苹果电脑：Safari。

我正在使用用户代理： private final static String USER_AGENT = "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html)

我也尝试过使用不同的用户代理，甚至是移动的，但我总是得到同样的错误，它可能与 Javascript 有关吗？

如果需要，我的代码如下：

java web-crawler htmlunit boilerpipe

2022-01-14T12:49:45.223

0 投票

0 回答

5 浏览

internal-server-error - 尝试提取 url 内容时出现 Boilerpipe 服务器错误

我正在尝试使用锅炉管从给定的 url 中提取内容。当我尝试演示 ui 时，它返回服务器错误：演示窗口

调用 api 时返回相同的错误。有没有人有同样的问题？是否与 API 密钥相关（如果是，如何获取？）。

internal-server-error boilerpipe

2022-02-18T10:50:35.337

1 2 3 4 5 6 7 8 9 10

问题标签 [boilerpipe]

Reference