问题标签 [web-crawler]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
web-crawler - 网络爬取和链接评估
我知道 cURL 会下载一个完整的文件。
我真正想要的是获取页面上的所有链接,并根据我的特定标准、链接位置等进行评估,然后决定是否应该抓取该页面并解析它以获取信息。
更具体地说,我想找到与娱乐活动相关的链接并解析数据并将其存储在我的 MySQL 数据库中,以填充我所在地区的活动网站。
有人对如何完成有想法吗?
-杰森
.net - VB.Net 中的 WebBrowser.Refresh 问题
我正在 VB.net 中开发一个网络爬虫,并使用 System.Forms.WebBrowser 对象来处理使用 javascript 或表单帖子的网站上的导航,但我遇到了问题。当我向后导航 (WebBrowser.GoBack()) 到加载了表单帖子的页面时,该页面已过期,我必须刷新才能重新发送请求。当我调用刷新 (WebBrowser.Refresh()) 时,会弹出一个对话框进行确认。有没有办法可以在代码中绕过这个模态对话框?谢谢!
seo - 用于抓取网站并检索每个页面的所有元信息的在线工具
有谁知道可以抓取任何给定网站并仅返回元关键字和元描述信息的免费在线工具?
seo - 使用网页上的按钮。谷歌会索引他们的链接吗?
我想在我的页面上使用标准按钮的外观,但我希望网络爬虫像链接一样跟随它们。
谷歌和其他网络爬虫会索引一个包含这样链接的网页吗?
如果没有,是否有另一种使用标准按钮的方法?
web-crawler - 网络爬虫 http 请求的正确礼仪
我有一个简单的网络爬虫,可以从网站的站点地图中请求我需要缓存和索引的所有页面。在多次请求之后,该网站开始提供空白页面。
除了指向他们的站点地图的链接之外,他们什么都没有robots.txt
,所以我认为我没有违反他们的“规则”。我有一个描述性标题,可以准确链接到我的意图,并且我抓取的唯一页面来自他们的站点地图。
http 状态码都还可以,所以我只能想象它们在短时间内阻止了大量的 http 请求。请求之间的合理延迟量是多少?
是否还有其他我忽略的可能导致此问题的注意事项?
webserver - 网络爬虫在对网络服务器的重复请求之间等待的最佳持续时间是多少
爬虫是否必须在重复命中同一服务器之间等待一些标准持续时间,以免服务器负担过重。
如果没有,任何关于什么可以是爬虫的良好等待期的建议被认为是礼貌的。
这个值是否也因服务器而异......如果是这样,如何确定它?
php - 是否有可用于 PHP 或 Ruby 的网络爬虫库?
是否有可用于 PHP 或 Ruby 的网络爬虫库?一个可以在深度优先或广度优先的库......即使使用 href="../relative_path.html" 和基本 url 也可以处理链接。
queue - 不使用队列是否可以进行广度优先搜索或广度优先遍历?
我记得并检查过,遍历树或首先爬取网络广度 (BFS) 的常用方法是使用队列。实际上有没有一种方法可以不使用队列来实现它?
web-crawler - 从站点获取 URL 列表
我正在为客户部署一个替换站点,但他们不希望所有旧页面都以 404 结尾。保持旧的 URL 结构是不可能的,因为它很可怕。
所以我正在编写一个 404 处理程序,它应该寻找一个被请求的旧页面并永久重定向到新页面。问题是,我需要所有旧页面 URL 的列表。
我可以手动执行此操作,但如果有任何应用程序可以为我提供刚刚给出主页的相对 URL(例如:/page/path,而不是 http:/.../page/path)URL,我会很感兴趣页。就像蜘蛛一样,但它不关心内容,只是寻找更深的页面。
web-applications - 有关网络爬取技术的信息
我正在构建一个小型网络爬虫,我想知道是否有人对实际实现有一些有趣的信息(只是爬行,没有搜索,没有排名,没有分类,只是爬行,亲吻:)。
作为记录,我已经有了 O'Reilly “Spidering hacks”和 No Starch Press “Webbots, spiders, and screen scrapers”。这些书非常好,但它们往往使事情变得简单,并且没有详细说明缩放、存储数据、并行内容和其他更高级的主题。当然,我可以查看现有开源爬虫的代码,但这会在另一边进行(C++ 爬虫似乎很复杂......)。我正在寻找一些有趣/额外的信息。
欢迎任何帮助,在此先感谢。