1

我有超过 1500 个与印度新闻媒体网站相关的 URL 列表。作为我大学项目的一部分,我有兴趣进行一些统计。

长话短说,我很想知道这些网站中的哪些网站在其主页上有指向其 Facebook 帐户的链接?这样做将是一项乏味的任务(到目前为止我已经完成了其中的 25%),因此我一直在通过网络研究使用程序抓取这些网站的任何可能性。我在 scraperwiki 上看到了 scrapers 以及importxml主要在 Google Docs 中看到的功能,但是,到目前为止,我还没有能够取得很大的成功。

我在 Google Docs 中为给定站点尝试了以下功能:

=ImportXML(A1, "//a[contains(@href, 'www.facebook.com')]")

总的来说,我想问一下,如果每个网站的结构有很大差异,是否有可能(以及如何)扫描给定的网站(或列表)以获取特定的 href 链接?

在此先感谢您提供有关此问题的任何帮助。

标记

4

0 回答 0