问题标签 [websphinx]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
6 回答
19177 浏览

java - 如何爬取整个维基百科?

我试过 WebSphinx 应用程序。

我意识到如果我将 wikipedia.org 作为起始 URL,它就不会进一步爬网。

因此,如何真正爬取整个维基百科?任何人都可以给一些指导吗?我是否需要专门去查找这些 URL 并放置多个起始 URL?

任何人都有关于usng WebSphinx API 教程的好网站的建议吗?

0 投票
1 回答
205 浏览

java - 正则表达式在测试程序上工作,但不在 WebSprinx crwaler 上

这是我的正则表达式匹配代码,适用于网页:

但是相同的代码不适用于我正在测试正则表达式的 crwaler 代码,我的爬虫代码是:(我正在使用 Websphinx)

这是我运行爬虫的代码:

关于爬虫代码的一点细节。shouldvisit(Link link)过滤是否访问链接。visit(Page page)决定当我们得到页面时要做什么。

在上面的例子中,test.txt 和 content 包含相同的 String

0 投票
1 回答
499 浏览

java - 网络爬虫爬取页面时如何通过输入用户名和密码进行表单身份验证

我已经下载了 websphinx 来执行此操作,但我需要它询问我网站的用户名和密码,然后将用户名和密码提交给网站,一旦通过身份验证,它应该开始抓取内部链接和子链接并将结束页面的静态数据保存到excel文件。是否有任何其他方法或爬虫可以做到这一点,但仅限于java

0 投票
0 回答
197 浏览

web-crawler - 使用 Java 爬取和下载覆盖 HttpsURLConnection 的整个网站

我希望抓取整个网站并将其保存在本地离线。它应该有 2 个部分:

  1. 验证

这需要使用 Java 实现,并且我需要覆盖 HttpsURLConnection 逻辑以添加几行身份验证 (Hadoop) 以获取 url 响应 (keytabs)。如下所示:

  1. 一旦所有的链接都通过了上面的认证,我们需要爬取整个网站直到depth=3,然后在本地离线保存为zip。

让我知道可能的解决方案。