问题标签 [web-crawler]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

9318 问题

0 投票

18 回答

143534 浏览

php - 如何使用 php 检测搜索引擎机器人？

如何使用 php 检测搜索引擎机器人？

Terrific

2009-03-24T13:34:40.673

0 投票

5 回答

1256 浏览

javascript - 保存/镜像/爬取使用javascript生成内容的网页

我想下载使用 javascript 输出数据的网页。Wget 可以做其他所有事情，但运行 javascript。

甚至像：firefox -remote "saveURL(www.mozilla.org, myfile.html)"

会很棒（不幸的是，这种命令不存在）。

javascript browser web-crawler

Nick Nolan

2009-03-24T23:07:47.080

0 投票

1 回答

1751 浏览

rss - 如何抓取提要

我的应用程序需要跟踪 RSS/Atom 提要并将新条目保存在数据库中。我的问题是，确定提要中的条目是否已被抓取的最可靠方法是什么？

我使用Universal Feed Parser模块来解析提要。我当前的实现会记录的最新值feed.entry[i].updated_parsed，当抓取时，如果updated_parsed条目的值大于记录的值，则该条目将保存在数据库中。这里的问题是许多提要没有发布日期或更新日期。

rss web-crawler feed atom-feed

z33m

2009-03-28T05:20:16.867

0 投票

4 回答

3866 浏览

python - 我怎样才能使这个递归爬虫函数迭代？

出于学术和性能的考虑，鉴于这种爬网递归网络爬网功能（仅在给定域内爬网），使其迭代运行的最佳方法是什么？目前，当它运行时，当它完成时，python 已经使用超过 1GB 的内存，这对于在共享环境中运行是不可接受的。

python recursion web-crawler

samuraisam

2009-03-29T09:13:29.760

0 投票

5 回答

9622 浏览

c# - 遍历 DirectoryEntry 或任何对象层次结构 - C#

我目前正在开发一个应用程序，它使用 System.DirectoryServices 命名空间来创建一个 DirectoryEntry 对象并遍历整个层次结构以收集信息。

我不知道层次结构中每个 DirectoryEntry 对象的子条目数，因此我无法通过 Children 属性为蜘蛛创建 N 个嵌套循环

这是我的伪代码示例：

我的问题是，如果您不知道对象中子目录的数量，那么创建一个循环来收集信息的最佳方法是什么？

（这可以应用于您不知道对象层次结构的任何类型的对象）

c#loops hierarchy web-crawler directoryservices

Michael Kniskern

2009-04-01T16:55:30.500

0 投票

10 回答

3597 浏览

nlp - Crawling The Internet

I want to crawl for specific things. Specifically events that are taking place like concerts, movies, art gallery openings, etc, etc. Anything that one might spend time going to.

How do I implement a crawler?

I have heard of Grub (grub.org -> Wikia) and Heritix (http://crawler.archive.org/)

Are there others?

What opinions does everyone have?

-Jason

nlp web-crawler information-retrieval text-mining

2009-04-07T23:39:08.883

0 投票

4 回答

419 浏览

web-crawler - 网站蜘蛛自动检测

是否可以编写代码来检测网站是否在抓取内容？

web-crawler

2009-04-08T09:07:37.567

0 投票

2 回答

204 浏览

linker - 自动查找内容链接的最佳方式？

所以，这是我发现自己正在考虑的任务。假装一下，我有大量的内容。我想查看哪些网站链接到我的内容。我知道我可以查看 TrackBack 或 PingBack，但是那些不使用能够处理它的工具的人呢？

似乎某种形式的网络爬虫寻找链接到原始文档的页面可能很有用。我向更大的社区提出的问题是，从这里开始的最佳方式是什么？TrackBack 和 PingBack 做的比我想象的要多吗？是否有服务或工具可以满足我的想法？

linker web-crawler trackback pingback

2009-04-14T02:34:01.413

0 投票

4 回答

1883 浏览

web-crawler - 用于抓取和挖掘网站数据的最佳开源库或应用程序

我想知道用于抓取和分析网站的最佳 eopen-source 库是什么。一个例子是爬虫物业机构，我想从多个站点获取信息并将它们聚合到我自己的站点中。为此，我需要抓取网站并提取物业广告。

web-crawler data-mining extraction text-extraction

2009-04-17T07:26:03.633

0 投票

4 回答

9367 浏览

open-source - 网络蜘蛛与 Wget 的蜘蛛有何不同？

下一句在 Wget 的手册中引起了我的注意

我发现以下与 wget 中的蜘蛛选项相关的代码行。

我想看看代码的差异，而不是抽象的。我喜欢代码示例。

网络蜘蛛在代码中与 Wget 的蜘蛛有何不同？

open-source wget web-crawler

2009-04-17T21:14:49.490

1 2 3 4 5 6 7 8 9 10

问题标签 [web-crawler]

Reference