问题标签 [web-crawler]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
web-crawler - 创建网络爬虫时的主要考虑因素是什么?
我今天才开始考虑创建/定制一个网络爬虫,对网络爬虫/机器人礼仪知之甚少。我发现的大部分关于礼仪的著作都显得陈旧而笨拙,所以我想从 Web 开发人员社区获得一些当前(和实用)的见解。
我想使用爬虫在“网络”上行走,目的非常简单——“网站 XYZ 的标记是否满足条件 ABC?”。
这对我提出了很多问题,但我认为我需要首先解决的两个主要问题是:
- 从一开始就感觉有点“不确定”——这种事情可以接受吗?
- 爬虫应该采取哪些具体考虑因素才能不让人们感到不安?
web-crawler - 如何设置仅允许站点默认页面的robot.txt
假设我在http://example.com上有一个网站。我真的很想让机器人看到主页,但是任何其他页面都需要阻止,因为它对蜘蛛毫无意义。换句话说
http://example.com和http://example.com/应该被允许,但 http://example.com/anything和http://example.com/someendpoint.aspx应该被阻止。
此外,如果我可以允许某些查询字符串传递到主页,那就太好了: http ://example.com?okparam=true
asp.net - 将asp.net动态站点转换为静态站点的工具
是否有任何工具可以抓取 asp.net 网站并创建静态网站?
storage - 防止 rsync 删除未完成的源文件
我有两台机器,速度和质量。speed 具有快速的 Internet 连接,并且正在运行一个将大量文件下载到磁盘的爬虫。mass 有很多磁盘空间。我想在下载完成后将文件从速度移动到质量。理想情况下,我会运行:
但我担心 rsync 会取消链接尚未完成下载的源文件。(我查看了源代码,但没有看到任何保护措施。)有什么建议吗?
language-agnostic - 进行网络抓取的最佳图书馆
我想从不同的网页获取数据,例如餐厅地址或给定位置的不同事件的日期等。我可以用来从一组给定的站点中提取这些数据的最佳库是什么?
web-crawler - 如何编写爬虫?
我曾想过尝试编写一个简单的爬虫,它可能会爬取并为我们的 NPO 的网站和内容生成其发现的列表。
有人对如何做到这一点有任何想法吗?您将爬虫指向哪里开始?它如何发回其发现并继续爬行?它怎么知道它发现了什么,等等。
html - 如何将动态站点变成可以从 CD 演示的静态站点?
我需要找到一种方法来抓取我们公司的一个 Web 应用程序,并从中创建一个静态站点,该站点可以刻录到 cd 上,供旅行销售人员用来演示该网站。后端数据存储分布在很多很多系统上,因此简单地在销售人员笔记本电脑上的虚拟机上运行站点是行不通的。他们在某些客户端(没有互联网,手机......原始,我知道)时将无法访问互联网。
有没有人对可以处理链接清理、flash、一点 ajax、css 等事情的爬虫有什么好的建议?我知道可能性很小,但我想在我开始编写自己的工具之前我会在这里提出这个问题。
.net - 是否有与 Perl 的 LWP / WWW::Mechanize 等效的 .NET?
在使用 .NET 的HttpWebRequest
/Response
对象之后,我宁愿自己开枪也不愿用它来爬取网站。我正在寻找一个现有的 .NET 库,它可以获取 URL,并让您能够跟踪链接、提取/填写/提交页面上的表单等。PerlLWP
和WWW::Mechanize
模块做得很好,但我正在工作使用 .NET 项目。
我遇到了HTML Agility Pack,它看起来很棒,但它没有模拟链接/表单。
这样的工具是否已经存在?
webkit - 构建网络爬虫 - 使用 Webkit 包
我正在尝试构建一个网络爬虫。
我需要两件事:
- 将 HTML 转换为 DOM 对象。
- 按需执行现有的 JavaScript。
此外,我需要一个选项来按需执行额外的 JavaScript(在诸如:等事件上
onMouseOver
)onMouseClick
首先,我找不到好的文档来源。我搜索了Webkit 主页,但找不到该软件包用户的太多信息,也没有有用的代码示例。另外,在一些论坛中,我看到了不要将 Webkit 接口用于爬虫,而是直接使用 DOM 和 Javascript 内部包的说明。 我正在搜索文档和代码示例。
此外,关于正确使用的任何建议。
工作环境:
- 操作系统:Windows
- 朗:C++
web-crawler - 什么是好的网络爬虫工具
我需要索引很多网页,有什么好的网络爬虫工具?我更喜欢 .NET 可以与之交谈的东西,但这不是一个引人注目的东西。
我真正需要的是可以提供网站网址的东西,它会跟随每个链接并存储用于索引的内容。