只是想知道,谷歌或任何其他公司是否提供允许您接收爬网链接的 API?我想过滤带有 .txt 扩展名的链接,并且可能只过滤另一个附加扩展名。
如果不是,我将如何去爬取/索引页面但仅将其改进为我选择的扩展?我也不想打官司,所以我必须遵守 robots.txt 吗?而且我是否需要一个大型数据库来抓取这些文件的内容?我想以 DMOZ 为起点抓取随机链接(使用我选择的扩展名)。
只是想知道,谷歌或任何其他公司是否提供允许您接收爬网链接的 API?我想过滤带有 .txt 扩展名的链接,并且可能只过滤另一个附加扩展名。
如果不是,我将如何去爬取/索引页面但仅将其改进为我选择的扩展?我也不想打官司,所以我必须遵守 robots.txt 吗?而且我是否需要一个大型数据库来抓取这些文件的内容?我想以 DMOZ 为起点抓取随机链接(使用我选择的扩展名)。
如果您在 .txt 扩展名中有要搜索的特定术语,可以使用 Bing 搜索 API ( https://datamarket.azure.com/dataset/bing/search ) 或 Yahoo (developer.yahoo.com/boss/search /)。但是您对获得的结果数量有限制,并且您必须为此付出巨大的代价。
但是如果你想要随机链接中的文本文件,你可以用 nutch 构建你自己的搜索引擎。您可以配置 nutch 以抓取特定的文件扩展名。
www.building-blocks.com/thinking/building-a-search-engine-with-nutch-and-solr-in-10-minutes/
stackoverflow.com/questions/8971886/nutch-how-to-crawl-a-specific-file-type