问题标签 [crawler4j]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 设置 crawler4j 的指南
我想设置爬虫来爬取网站,比如说博客,然后只获取网站中的链接并将链接粘贴到文本文件中。你能指导我一步一步设置爬虫吗?我正在使用 Eclipse。
java - 如何让 crawler4j 更快地从页面下载所有链接?
我所做的是:
- 抓取页面
- 获取页面的所有链接,将它们放在一个列表中
- 启动一个新的爬虫,它访问列表的每个链接
- 下载它们
一定有更快的方法,我可以在访问页面时直接下载链接?谢谢!
parsing - crawler4J 获取数据的高效设计
我正在尝试从各种网站获取数据。在堆栈溢出搜索后,我正在使用 crawler4j,正如许多人所建议的那样。以下是我的理解/设计:
现在,请您告诉我,crawler4J 可以执行步骤 1、2 和 3 吗?请建议任何更好的设计可用(假设没有可用的提要)如果可以,请指导我如何做。
谢谢文卡特
html - 使用 crawler4j 抓取网站时获取链接的链接文本
我正在使用 crawler4j 来爬取网站。当我访问一个页面时,我想获取所有链接的链接文本,而不仅仅是完整的 URL。这可能吗?
提前致谢。
java - 浏览.jdb 输出?
我正在运行crawler4j,输出到目录/frontier/
。该目录下的文件是
- 00000000.jdb
- je.info.0
- je.info.lck
- 杰尔克
.jdb 文件是唯一包含数据的文件,其他三个文件的字节数为零。我不确定如何处理这些数据。java 程序捕获了我想要的数据,但现在我不知道如何浏览我检索到的数据。(我在 Mac 上,所以任何跨平台或用于 OSX 的东西都是可取的)
java - 为什么使用 hdfs:// 前缀作为文件路径允许打开文件?
我正在编写一个抓取页面的 hadoop 作业。我正在使用的库在爬网时使用文件系统来存储爬网数据。我确信必须修改该库以使用 HDFS,因为需要使用一组完全不同的类来与 HDFS 交互,而我正在使用的爬虫库使用 java.io。
但是,当一位同事使用 hdfs://localhost/path/to/storage 作为存储文件夹的路径时,爬虫可以正常工作,并且能够写入文件系统。我试图理解为什么会这样,基于 hadoop 的 jvm 是否有什么不同导致它们将 hdfs:// 前缀路径解析为 HDFS 上的路径?
java - 使用 Crawler4j 时线程“主”java.lang.NoClassDefFoundError:org/apache/http/conn/scheme/SchemeSocketFactory 中的异常
我正在使用 Crawler4j 示例代码,但我发现我遇到了异常。
这是我的例外:
这是我的代码:
java - 如何使用 crawler4j 搜索存在于不同网页中的字符串
我正在使用 Crawler4j 它返回输出为已处理页面:10 找到的总链接:369 总文本大小:20077 到此它工作正常,但我想搜索此页面中存在的字符串我怎么能做到这一点你可以请帮我
javascript - Crawler4j 和 Tripadvisor
我正在使用 crawler4j 为 Tripadvisor 编写爬虫。我需要收集一个项目的所有评论,但指向“下一个”评论的链接(带有数字的评论)关联的不是链接,而是 javascript 函数。此功能在 Tripadvisor 服务器的某处定义。有没有办法评估这些函数并获取它们返回的页面?
java - Crawler4j 在 url 重定向中将 null 作为 parentURL,将零作为 parentDocID
我正在使用最新版本的 Crawler4j 来抓取一些提要 URL。我已经传递了一些种子 URL 以及文档 ID,并且我还将深度设置为零,因为我只想要该页面的内容。
问题是我无法获取这些种子 URL 的 parentdocid 和 parent URL。我想知道与原始 URL 关联的重定向 URL。
我page.getWebURL().getParentUrl();
用来获取父网址。
有关更详细的说明http://code.google.com/p/crawler4j/issues/detail?id=163
有人有类似的问题吗?
我再次尝试了不同的 URL,但结果仍然相同。controller.addSeed("feeds.reuters.com/~r/reuters/bankruptcyNews/~3/es0kEUT8gI0/",321);
输出: -
ParentDocId 0 DocID 322 父页面 null
我浏览了 crawler4j 代码并暂时解决了我的问题。