0

我正在尝试处理来自 CommonCrawl 的西班牙语文档。我得到了带有查询的文档“列表”:

SELECT warc_filename, content_mime_detected, content_charset
 FROM ccindex
 WHERE crawl = 'CC-MAIN-2021-25'
     AND subset = 'warc'
     AND contains(split(content_languages, ','), 'spa')

因为我不需要 HTML,只需要文本,我打算使用 WET 文件。所以,我知道我必须更改文件名:

    val wetUrl = warcUrl
      .replace("/warc/", "/wet/")
      .replace("warc.gz", "warc.wet.gz")

并下载 WET 文件。我org.jwat.warc.WarcReaderFactory在 Scala 中使用。我的问题是:

除了遍历所有记录并按段号匹配之外,是否有更好的方法从 WET 格式中提取文档?

4

0 回答 0