我想从常见的爬网中搜索所有 WARC 文件(近 36K 的 Warc 文件)中的一个单词(例如公司名称),并在其 HTML 源内容中获取具有该公司名称的所有 url。
我想将这些 WARC 文件保留在 S3 本身中。只是我需要这些 WARC 文件中的 url 作为结果。
是否有任何可用的模块或预构建包?
我可以使用 Solr 索引吗?(但它可能需要更多内存)
提前致谢。
我想从常见的爬网中搜索所有 WARC 文件(近 36K 的 Warc 文件)中的一个单词(例如公司名称),并在其 HTML 源内容中获取具有该公司名称的所有 url。
我想将这些 WARC 文件保留在 S3 本身中。只是我需要这些 WARC 文件中的 url 作为结果。
是否有任何可用的模块或预构建包?
我可以使用 Solr 索引吗?(但它可能需要更多内存)
提前致谢。