问题标签 [web-crawler]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
6 回答
427 浏览

python - 无法找到被 robots.txt 阻止的互联网页面

问题:寻找大学数学讲座的答案和练习。赫尔辛基

实际问题

  1. 用 .com 列出Disallowrobots.txt中的网站列表
  2. 在 (1) 处列出包含 *.pdf 文件的站点列表
  3. 在 (2) 处列出在 pdf 文件中包含单词“analyysi”的站点

实际问题的建议

  1. 问题 3:制作一个从 pdf 文件中抓取数据的编译器

问题

  1. 您如何搜索已注册的 .com 网站?
  2. 你将如何通过 Python 的 defaultdict 和 BeautifulSoap 解决实际问题 1 和 2?
0 投票
2 回答
177 浏览

search - 搜索引擎是否有任何构建块可以抓取其他网站?

我想为一件特定的事情建立一个搜索服务。这些数据可以通过免费的分类服务和许多其他网站免费获得。

是否有任何构建块,例如我可以定制的开源爬虫 - 而不是从头开始构建,我可以使用?

关于构建这样的产品有什么建议吗?不仅仅是技术上的,还有我可能需要考虑的任何隐私/法律问题。

例如,如果我从很多地方得到它们,我是否需要在结果的来源处“给予信任”并放置原始链接?

编辑:顺便说一句,我在前端使用带有 JS 的 GWT,还没有决定后端的语言。PHP或Python。想法?

0 投票
3 回答
2343 浏览

web-applications - 网络爬虫和 GET 与 POST 请求

我听说网络爬虫应该只遵循 GET 请求而不是 POST 请求。

在现实世界中,这是一个有效的假设吗?

0 投票
2 回答
100 浏览

parsing - 如何获取网页上字体的大小?

在 webspiders/crawlers 中,如何获取用户在 HTML 文档中看到的字体的实际初始渲染大小,同时牢记 CSS。

0 投票
2 回答
378 浏览

search - 爬虫实例

我正在构建一个大型网络爬虫,当在位于互联网服务器场中的专用网络服务器上运行网络时,爬取网络时有多少实例是最佳的。

0 投票
6 回答
10155 浏览

c# - 具有单独实例的 .NET 自定义线程池

什么是最推荐的 .NET 自定义线程池,它可以有单独的实例,即每个应用程序有多个线程池?我需要一个无限的队列大小(构建一个爬虫),并且需要为我正在爬的每个站点并行运行一个单独的线程池。

编辑:我需要尽快挖掘这些站点以获取信息,为每个站点使用单独的线程池将使我能够控制在任何给定时间在每个站点上工作的线程数。(不超过2-3个)

谢谢罗伊

0 投票
5 回答
19046 浏览

open-source - 有人知道一个好的可扩展开源网络爬虫吗?

爬虫需要有一个可扩展的架构来允许改变内部流程,比如实现新的步骤(预解析器、解析器等......)

我找到了 Heritrix 项目 ( http://crawler.archive.org/ )。

但是还有其他类似的好项目吗?

0 投票
2 回答
85 浏览

java - 是否可以从 Java 中发现插入的磁盘?

我正在编写一个磁盘爬虫,如果用户没有提供现有路径,程序应该搜索所有可用的磁盘。有谁知道这是否可能,如果它是如何从 Java 中做到这一点的?

0 投票
3 回答
18193 浏览

url - 如何获取域的 URL 列表

我想为一个域生成一个 URL 列表,但我宁愿不自己爬网域来节省带宽。那么有没有办法使用现有的爬取数据呢?

我想到的一个解决方案是进行Yahoo 站点搜索,它可以让我以 TSV 格式下载前 1000 个结果。但是,要获得所有记录,我将不得不抓取搜索结果。Google 也支持站点搜索,但不提供下载数据的简单方法。

您能想出一种适用于大多数(如果不是全部)网站的更好方法吗?

谢谢,理查德

0 投票
2 回答
562 浏览

c# - 如何使用 .NET RegEx 解析 HTML 文件并找到 1. 外部链接。2.内部链接

我正在编写一个程序,该程序将帮助我找出我的竞争对手链接到的网站。

为此,我正在编写一个程序来解析 HTML 文件,并生成 2 个列表:内部链接和外部链接。

我将使用内部链接进一步爬取网站,而外部链接实际上是我正在寻找的。

如何使用 .NET RegEx 解析 HTML 文件并找到 1. 外部链接。2.内部链接。

在此先感谢,Eytan Levit。

编辑:回答这个问题 - 不 - 我不受正则表达式的约束,我可以使用任何其他想法。