amazon-s3 - 在所有 Common Crawl WARC 文件中搜索一个词

翻译自：https://stackoverflow.com/questions/31001926 2015-06-23T11:45:42.873

978 次

我想从常见的爬网中搜索所有 WARC 文件（近 36K 的 Warc 文件）中的一个单词（例如公司名称），并在其 HTML 源内容中获取具有该公司名称的所有 url。

我想将这些 WARC 文件保留在 S3 本身中。只是我需要这些 WARC 文件中的 url 作为结果。

是否有任何可用的模块或预构建包？

我可以使用 Solr 索引吗？（但它可能需要更多内存）

提前致谢。

0 回答 0