问题标签 [boilerpipe]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 忽略锅炉管 python 包装器 web 提取器的 SSL 验证?
我正在尝试从许多没有 SSL 认证的站点中提取数据。我正在使用锅炉管道 python 包装器来提取没有 HTML 的文本并将其写入文本文件。
我了解如何在请求库中删除 SSL 认证要求,但在锅炉管道方面我似乎找不到解决方案。Boilerpipe 是一个了不起的 Java 库,用于为 NLP 准备抓取的数据,所以我希望能够在 Python 中使用它。
这是我正在运行的代码:
这是我认为导致问题的错误(SSL认证):
python - 为什么我不能 pip 安装 Python3 包?
我是使用 Windows 10、64 的 Python (3) 新手。尝试安装软件包时,我收到下面粘贴的长错误消息。我应该怎么办?
我还尝试了以下方法:
pip install --upgrade pip
. 我也收到了一条很长的错误消息,以
python-3.x - 尝试为 Python 安装boilerpipe3 有什么问题?
我希望在三个场所(PC 或服务器)为 Python 安装boilerpipe3。每个场地都运行 Windows 10、Python 3,并且每个场地都设置了几乎相同的环境。我已经设法在两个场所安装了boilerpipe3(通过pip install),但在第三个场所一直遇到问题。我很难理解这次的问题是什么。
这是我在安装了 Python 3 且完全正常工作的 Windows 10 PC 上尝试通过 pip install 安装boilerpipe3 时收到的错误消息(经过几条注释)。
笔记:
我意识到 JPype1-py3 的要求似乎已被弃用,取而代之的是 JPype1 0.6.3,所以我继续正确安装它,然后尝试 pip installboilerpipe3,但这不起作用。
我还确保我安装了最新版本的 pip==19.1.1、setuptools==41.0.1 和 wheel==0.33.4。更新所有这些并没有解决问题。
此外,我还安装了 Visual Studio Code 1.23.1 和 Visual Studio Build Tools 2019 16.1.1。我还安装了 Java\jdk\12.0.1,系统变量路径设置为 C:\Program Files\Java\jdk-12.0.1\bin,JAVA_HOME 环境变量设置为 C:\Program Files\Java\jdk- 12.0.1\bin。
这是很多信息,但我必须确保所有这些都已到位,以使锅炉管 3 在其他两个场所工作。
进一步说明:
我还想知道 mingw-w64 包是否导致任何问题,所以我尝试删除它以及与之相关的所有路径和变量,但这也没有导致锅炉管 3 正确安装。
这是我在尝试 pip installboilerpipe3 时收到的错误消息:
我很难理解是什么问题导致它无法正确安装,特别是因为到目前为止我已经设法将它安装在其他两个场所!我将不胜感激任何有助于安装和工作的帮助!谢谢!
java - Tomcat 应用程序为 WEB-INF/lib 中的 Jar 抛出 java.lang.ClassNotFoundException
我正在尝试添加 Boilerpipe 来对我的 Tomcat 项目进行网络抓取,但是当我这样做时,我往往会遇到问题。我将 jar 以及必要的资源(nekohtml-1.9.13.jar 和 xerces-2.9.1.jar)添加到我的 Web-INF/lib 文件夹并作为项目结构中的外部库。
但是,每次我尝试部署应用程序时,我都会java.io.ClassNotFoundException
从 Tomcat 构建一段时间,但我不知道为什么。具体来说,Tomcat 告诉我访问被拒绝,但我不知道这可能意味着什么,因为它很容易访问同一文件夹中的其他 Jar。
这是Tomcat错误的完整堆栈跟踪
我还在某处读到,在 WEB-INF/lib 文件夹中复制 Tomcat 的现有库是不好的,但我不确定我是否这样做了。这是我的 lib 文件夹中的内容:(其中大部分是由 IntelliJ 自动导入的)
任何帮助将不胜感激。
谢谢。
c# - 从 URL 获取 HTML 时出现异常
我正在尝试从 URL 获取 HTML,以便可以使用 Boilerpipe 将其剥离。但是,我不断收到异常。我正在使用 NewsAPI 来获取我的 URL。这是相关的代码片段:
这是异常的详细信息:
java - 使用锅炉管道抓取 TripAdvisor 时不受支持的浏览器代理
我正在编写一个通用的网络爬虫,它从给定的网页获取主要内容(它必须爬取不同的页面)。
我尝试使用不同的工具来实现这一点,其中包括:
- HtmlUnit : 爬行时返回给我太多的废料。
- 本质:很多页面的重要信息都无法获取。
- Boilerpipe:成功检索内容,几乎完美的结果,但是:
当我尝试抓取 TripAdvisor 之类的页面而不是给定的网页 html 时,它会返回以下消息:
我们注意到您使用的是不受支持的浏览器。Tripadvisor 网站可能无法正常显示。我们支持以下浏览器:Windows:Internet Explorer、Mozilla Firefox、Google Chrome。苹果电脑:Safari。
我正在使用用户代理:
private final static String USER_AGENT = "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html)
我也尝试过使用不同的用户代理,甚至是移动的,但我总是得到同样的错误,它可能与 Javascript 有关吗?
如果需要,我的代码如下:
internal-server-error - 尝试提取 url 内容时出现 Boilerpipe 服务器错误
我正在尝试使用锅炉管从给定的 url 中提取内容。当我尝试演示 ui 时,它返回服务器错误: 演示窗口
调用 api 时返回相同的错误。有没有人有同样的问题?是否与 API 密钥相关(如果是,如何获取?)。