问题标签 [websphinx]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

4 问题

0 投票

6 回答

19177 浏览

java - 如何爬取整个维基百科？

我试过 WebSphinx 应用程序。

我意识到如果我将 wikipedia.org 作为起始 URL，它就不会进一步爬网。

因此，如何真正爬取整个维基百科？任何人都可以给一些指导吗？我是否需要专门去查找这些 URL 并放置多个起始 URL？

任何人都有关于usng WebSphinx API 教程的好网站的建议吗？

2010-02-22T20:01:26.343

0 投票

1 回答

205 浏览

java - 正则表达式在测试程序上工作，但不在 WebSprinx crwaler 上

这是我的正则表达式匹配代码，适用于网页：

但是相同的代码不适用于我正在测试正则表达式的 crwaler 代码，我的爬虫代码是：（我正在使用 Websphinx）

这是我运行爬虫的代码：

关于爬虫代码的一点细节。shouldvisit(Link link)过滤是否访问链接。visit(Page page)决定当我们得到页面时要做什么。

在上面的例子中，test.txt 和 content 包含相同的 String

java html regex websphinx

2011-09-07T18:56:32.230

0 投票

1 回答

499 浏览

java - 网络爬虫爬取页面时如何通过输入用户名和密码进行表单身份验证

我已经下载了 websphinx 来执行此操作，但我需要它询问我网站的用户名和密码，然后将用户名和密码提交给网站，一旦通过身份验证，它应该开始抓取内部链接和子链接并将结束页面的静态数据保存到excel文件。是否有任何其他方法或爬虫可以做到这一点，但仅限于java

java file-io web-crawler websphinx

2011-12-13T09:43:38.280

0 投票

0 回答

197 浏览

web-crawler - 使用 Java 爬取和下载覆盖 HttpsURLConnection 的整个网站

我希望抓取整个网站并将其保存在本地离线。它应该有 2 个部分：

验证

这需要使用 Java 实现，并且我需要覆盖 HttpsURLConnection 逻辑以添加几行身份验证 (Hadoop) 以获取 url 响应 (keytabs)。如下所示：

一旦所有的链接都通过了上面的认证，我们需要爬取整个网站直到depth=3，然后在本地离线保存为zip。

让我知道可能的解决方案。

web-crawler nutch crawler4j websphinx

2017-01-19T22:18:46.217

1 2 3 4 5 6 7 8 9 10

问题标签 [websphinx]

java - 如何爬取整个维基百科？

java - 正则表达式在测试程序上工作，但不在 WebSprinx crwaler 上

java - 网络爬虫爬取页面时如何通过输入用户名和密码进行表单身份验证

web-crawler - 使用 Java 爬取和下载覆盖 HttpsURLConnection 的整个网站

Reference