问题标签 [warc]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

54 问题

0 投票

1 回答

67 浏览

java - 为什么我的 Apache Nutch warc 和 commoncrawldump 在爬网后失败？

我已经使用 Nutch 成功爬取了一个网站，现在我想从结果中创建一个 warc。但是，运行 warc 和 commoncrawldump 命令都会失败。此外，bin/nutch dump -segement .... 在同一段文件夹上运行成功。

我正在使用 nutch v-1.17 并运行：

hadoop.log 的错误是ERROR tools.CommonCrawlDataDumper - No segment directories found in my/path/ 尽管刚刚在那里进行了爬网。

2020-09-15T09:43:51.467

0 投票

2 回答

446 浏览

python - Python：读取文件并将键和值添加到不同行的字典中

我对 Python 很陌生，我在完成一项基本上是这样的任务时遇到了麻烦：

#逐行读取WARC文件以识别string1。

#找到string1时，将部分字符串作为键添加到字典中。

#然后继续读取文件识别string2，并将string2的一部分作为值添加到之前的key中。

#继续浏览文件并做同样的事情来构建字典。

我无法导入任何内容，因此给我带来了一些麻烦，尤其是添加键，然后将值留空并继续浏览文件以查找要用作值的 string2。

我已经开始考虑将密钥保存到中间变量，然后继续识别值，添加到中间变量并最终构建字典。

python dictionary warc

2020-09-30T12:44:44.843

0 投票

1 回答

309 浏览

python - 根据标头将 WARC 文件拆分为块：WARC/1.0 Python

我是编程新手，正在尝试通过将 WARC 文件拆分成块然后将每个块存储在字典中来处理它。

每个块应以 WARC/1.0 标头开头，并由 3 个空行分隔。我还想删除前 2 段：

#让一切从这里开始：

我尝试使用生成器对块进行分组，但它返回一组（整个文件）。有没有简单的方法来分离这些？

我无法导入任何库。

任何帮助将不胜感激！！

python html dictionary file-processing warc

2020-10-06T05:49:12.853

0 投票

1 回答

146 浏览

python - Python：如何拆分WARC文件？

我的目标是将 WARC 文件从 CommonCrawl 拆分并分类到其单独的记录中。示例文件：

如何在“WARC/1.0”行将文件拆分为不同的记录？

python split warc

2020-10-22T04:24:26.897

0 投票

0 回答

111 浏览

c++ - 我应该如何使用 C++ 解析 5gb WARC 文件？

WARC 文件来自 Common Crawl。一个样品：

环境：我在 Windows 的 VS 2019 上使用 C++。我不喜欢使用特殊的库。我查看了将文件映射到内存中，但有人说当您只是按顺序解析文件时它并没有那么快。因为我在 Windows 中，所以我得到了一个很好的 GUI，但我也得到了所有 Unicode 的混乱。

解析的期望输出：我有一个输出文件，我想在其中保存大部分文本和一些标签。我将丢弃大部分输入。一些warc标签向解析器发出信号，它可以向前跳过500个字符。例如，除“WARC-Type: response”之外的任何“WARC-Type”都可以向前跳过已知数量。

我尝试过：将文件读入堆缓冲区，然后使用滑动窗口对缓冲区进行切片。根据窗口内容跳过/保存。能够捕获跨越缓冲区的标签。最终，我将使用 regex 和 string::find 之类的东西来匹配标签和文本。

最大的问题：Unicode。该文件是 UTF-8 格式，包含您可以想象的各种有趣的字符。我使用 MultiByteToWideChar。如果我只转换窗口，我不会使用太多内存，但会遇到文本排列问题。UTF-8 的 15 个字符不会产生 ANSI 的 15 个字符。根据我的 multibtyetowidechar 标志、大小等。我会跳过文本、解码错误等。如果我转换整个缓冲区然后切片到一个窗口中，我使用的内存是原来的两倍。没什么大不了的，但似乎效率低下。

c++xml winapi warc

2020-11-25T22:33:23.213

0 投票

1 回答

146 浏览