scala - 从 CommonCrawl WET 格式读取特定记录

翻译自：https://stackoverflow.com/questions/68605585 2021-07-31T20:20:21.377

30 次

我正在尝试处理来自 CommonCrawl 的西班牙语文档。我得到了带有查询的文档“列表”：

SELECT warc_filename, content_mime_detected, content_charset
 FROM ccindex
 WHERE crawl = 'CC-MAIN-2021-25'
     AND subset = 'warc'
     AND contains(split(content_languages, ','), 'spa')

因为我不需要 HTML，只需要文本，我打算使用 WET 文件。所以，我知道我必须更改文件名：

    val wetUrl = warcUrl
      .replace("/warc/", "/wet/")
      .replace("warc.gz", "warc.wet.gz")

并下载 WET 文件。我org.jwat.warc.WarcReaderFactory在 Scala 中使用。我的问题是：

除了遍历所有记录并按段号匹配之外，是否有更好的方法从 WET 格式中提取文档？

scala - 从 CommonCrawl WET 格式读取特定记录

0 回答 0

Related

Reference