api - 用于抓取网站的 API？

Question

只是想知道，谷歌或任何其他公司是否提供允许您接收爬网链接的 API？我想过滤带有 .txt 扩展名的链接，并且可能只过滤另一个附加扩展名。

如果不是，我将如何去爬取/索引页面但仅将其改进为我选择的扩展？我也不想打官司，所以我必须遵守 robots.txt 吗？而且我是否需要一个大型数据库来抓取这些文件的内容？我想以 DMOZ 为起点抓取随机链接（使用我选择的扩展名）。

score 0 · Accepted Answer

如果您在 .txt 扩展名中有要搜索的特定术语，可以使用 Bing 搜索 API ( https://datamarket.azure.com/dataset/bing/search ) 或 Yahoo (developer.yahoo.com/boss/search /)。但是您对获得的结果数量有限制，并且您必须为此付出巨大的代价。

但是如果你想要随机链接中的文本文件，你可以用 nutch 构建你自己的搜索引擎。您可以配置 nutch 以抓取特定的文件扩展名。

www.building-blocks.com/thinking/building-a-search-engine-with-nutch-and-solr-in-10-minutes/

stackoverflow.com/questions/8971886/nutch-how-to-crawl-a-specific-file-type

api - 用于抓取网站的 API？

1 回答 1

Related

Reference