我正在尝试处理来自 CommonCrawl 的西班牙语文档。我得到了带有查询的文档“列表”:
SELECT warc_filename, content_mime_detected, content_charset
FROM ccindex
WHERE crawl = 'CC-MAIN-2021-25'
AND subset = 'warc'
AND contains(split(content_languages, ','), 'spa')
因为我不需要 HTML,只需要文本,我打算使用 WET 文件。所以,我知道我必须更改文件名:
val wetUrl = warcUrl
.replace("/warc/", "/wet/")
.replace("warc.gz", "warc.wet.gz")
并下载 WET 文件。我org.jwat.warc.WarcReaderFactory
在 Scala 中使用。我的问题是:
除了遍历所有记录并按段号匹配之外,是否有更好的方法从 WET 格式中提取文档?