问题标签 [web-crawler]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - 如何使用 php 检测搜索引擎机器人?
如何使用 php 检测搜索引擎机器人?
javascript - 保存/镜像/爬取使用javascript生成内容的网页
我想下载使用 javascript 输出数据的网页。Wget 可以做其他所有事情,但运行 javascript。
甚至像:firefox -remote "saveURL(www.mozilla.org, myfile.html)"
会很棒(不幸的是,这种命令不存在)。
rss - 如何抓取提要
我的应用程序需要跟踪 RSS/Atom 提要并将新条目保存在数据库中。我的问题是,确定提要中的条目是否已被抓取的最可靠方法是什么?
我使用Universal Feed Parser模块来解析提要。我当前的实现会记录 的最新值feed.entry[i].updated_parsed
,当抓取时,如果updated_parsed
条目的值大于记录的值,则该条目将保存在数据库中。这里的问题是许多提要没有发布日期或更新日期。
python - 我怎样才能使这个递归爬虫函数迭代?
出于学术和性能的考虑,鉴于这种爬网递归网络爬网功能(仅在给定域内爬网),使其迭代运行的最佳方法是什么?目前,当它运行时,当它完成时,python 已经使用超过 1GB 的内存,这对于在共享环境中运行是不可接受的。
c# - 遍历 DirectoryEntry 或任何对象层次结构 - C#
我目前正在开发一个应用程序,它使用 System.DirectoryServices 命名空间来创建一个 DirectoryEntry 对象并遍历整个层次结构以收集信息。
我不知道层次结构中每个 DirectoryEntry 对象的子条目数,因此我无法通过 Children 属性为蜘蛛创建 N 个嵌套循环
这是我的伪代码示例:
我的问题是,如果您不知道对象中子目录的数量,那么创建一个循环来收集信息的最佳方法是什么?
(这可以应用于您不知道对象层次结构的任何类型的对象)
nlp - Crawling The Internet
I want to crawl for specific things. Specifically events that are taking place like concerts, movies, art gallery openings, etc, etc. Anything that one might spend time going to.
How do I implement a crawler?
I have heard of Grub (grub.org -> Wikia) and Heritix (http://crawler.archive.org/)
Are there others?
What opinions does everyone have?
-Jason
web-crawler - 网站蜘蛛自动检测
是否可以编写代码来检测网站是否在抓取内容?
linker - 自动查找内容链接的最佳方式?
所以,这是我发现自己正在考虑的任务。假装一下,我有大量的内容。我想查看哪些网站链接到我的内容。我知道我可以查看 TrackBack 或 PingBack,但是那些不使用能够处理它的工具的人呢?
似乎某种形式的网络爬虫寻找链接到原始文档的页面可能很有用。我向更大的社区提出的问题是,从这里开始的最佳方式是什么?TrackBack 和 PingBack 做的比我想象的要多吗?是否有服务或工具可以满足我的想法?
web-crawler - 用于抓取和挖掘网站数据的最佳开源库或应用程序
我想知道用于抓取和分析网站的最佳 eopen-source 库是什么。一个例子是爬虫物业机构,我想从多个站点获取信息并将它们聚合到我自己的站点中。为此,我需要抓取网站并提取物业广告。
open-source - 网络蜘蛛与 Wget 的蜘蛛有何不同?
下一句在 Wget 的手册中引起了我的注意
我发现以下与 wget 中的蜘蛛选项相关的代码行。
我想看看代码的差异,而不是抽象的。我喜欢代码示例。
网络蜘蛛在代码中与 Wget 的蜘蛛有何不同?