3

我想从常见的爬网中搜索所有 WARC 文件(近 36K 的 Warc 文件)中的一个单词(例如公司名称),并在其 HTML 源内容中获取具有该公司名称的所有 url。

我想将这些 WARC 文件保留在 S3 本身中。只是我需要这些 WARC 文件中的 url 作为结果。

是否有任何可用的模块或预构建包?

我可以使用 Solr 索引吗?(但它可能需要更多内存)

提前致谢。

4

0 回答 0