我知道 cURL 会下载一个完整的文件。
我真正想要的是获取页面上的所有链接,并根据我的特定标准、链接位置等进行评估,然后决定是否应该抓取该页面并解析它以获取信息。
更具体地说,我想找到与娱乐活动相关的链接并解析数据并将其存储在我的 MySQL 数据库中,以填充我所在地区的活动网站。
有人对如何完成有想法吗?
-杰森
我知道 cURL 会下载一个完整的文件。
我真正想要的是获取页面上的所有链接,并根据我的特定标准、链接位置等进行评估,然后决定是否应该抓取该页面并解析它以获取信息。
更具体地说,我想找到与娱乐活动相关的链接并解析数据并将其存储在我的 MySQL 数据库中,以填充我所在地区的活动网站。
有人对如何完成有想法吗?
-杰森
我建议您将您的工作基于现有的网络爬虫/索引器解决方案,而不是自己在代码中或使用 CURL 等工具实现它。
例如,参见Lucene。
其他答案中的那些解决方案听起来很有趣,但我只是用C#/Mono和HTML Agility Pack做了一些类似而简单的事情。
您没有指定编程语言。Apache Droids可能适合您,如果您愿意使用 Java 对其进行自定义。它被计划为一个最小的爬虫,您可以根据您的特定需求进行自定义。
如果你想要的只是一个页面上的链接枚举,你可以使用 .NET WebBrowser 和 DOM 来做到这一点。为此挖掘我的代码......我会回复你。
如上所述,您没有提到语言。如果您使用 Ruby,则可以使用蜘蛛网 gem。您将手动告诉它不要找到任何链接(默认情况下它会自动抓取所有链接)并在每个页面上自己执行此操作,因为您说您需要评估它们,然后如果您希望它们可以手动放入队列中被抓取。
如果这就是你所使用的,那么 Godaddy 共享主机似乎支持 Ruby on Rails。
(刚刚看到这是 3 年前的,不过可能对其他人有帮助!)