问题标签 [warc]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

54 问题

0 投票

1 回答

2072 浏览

python - 如何从 warc.wet.gz 中提取每个有效载荷？

我一直在尝试从 Common Crawl 的湿文件中提取文本数据。我目前正在使用 Internet Archieve https://github.com/internetarchive/warc的 warc 解析器

但是这种方法提供的数据不到有效载荷中的一半。有没有其他更好的方法可以提供文件中每个有效负载中的所有数据。

2016-01-05T13:17:39.790

0 投票

1 回答

163 浏览

java - 使用正则表达式进行流模式匹配

我想解析一个以 Warc 0.9 版格式化的大文本文件。此类文本的示例在此处。如果您查看它，您会发现整个文档由以下条目列表组成。

我需要从每个条目中提取 URL 和 HTML 内容（请注意，示例文件由多个页面条目组成，每个条目的格式都与上面的内容类似。）

我在 Java 中使用了以下正则表达式：

其中第 1 组和第 2 组分别代表 URL 和 HTML 内容。这段代码有两个问题：

找到匹配项非常慢。
仅与第一页匹配。

Java 代码：

问题：

为什么我的代码只解析第一页条目？
有没有更快的方法以流方式解析大文本？

java regex warc

2016-01-14T16:34:05.067

0 投票

0 回答

148 浏览

python - 在 python3 中处理 WARC 文件时发生“搜索模式已耗尽”

我正在尝试从 WARC 数据集 ( yahoo!webscope L2ValueError: Search for pattern exhausted ) 中获取一些纯文本，并在使用load()python3 模块中的函数时保持会议warcat。尝试了一些随机的 WARC 示例文件，一切正常。

该数据集确实要求提供进一步的提交许可（然后根据自述文件提供密码；WARC 文件是否带有密码？）但现在我没有能力发送传真。

我还检查了warcat源代码，发现ValueError当 file_obj.read(size) 为 False 时会引发。好像没啥意思，所以来这里问。。。

编码：

提前致谢。

python python-3.x warc

2016-02-23T14:31:34.700

0 投票

1 回答

1846 浏览

python - Python 无法完全读取“warc.gz”文件

对于我的工作，我抓取网站并将它们写入 gzip 压缩的网络档案（扩展名为“warc.gz”）。我使用 Python 2.7.11 和 warc 0.2.1 库。

我注意到对于大多数文件，我无法使用 warc-library 完全阅读它们。例如，如果 warc.gz 文件有 517 条记录，我只能读取其中大约 200 条。

经过一些研究，我发现这个问题只发生在 gzipped 文件中。扩展名为“warc”的文件没有这个问题。

我发现有些人也有这个问题（https://github.com/internetarchive/warc/issues/21），但没有找到解决方案。

我猜 Python 2.7.11 中的“gzip”可能存在错误。也许有人有这方面的经验，并且知道可以解决这个问题吗？

提前致谢！

例子：

我像这样创建新的 warc.gz 文件：

要写我使用的记录：

这将创建完美的“warc.gz”文件。他们没有问题。所有，包括 "\r\n" 都是正确的。但是当我阅读这些文件时问题就开始了。

要读取我使用的文件：

要遍历我使用的记录：

问题是，在“warc.gz”文件的循环过程中，并非所有记录都找到了，而“warc”文件中的所有记录都找到了。warc-library 本身解决了使用这两种类型的文件。

python gzip warc

2016-03-23T09:05:58.023

0 投票

1 回答

296 浏览

war - 如何归档和检索大型 HTML 数据集？

我是一个新生，我即将参加这个周末的比赛。问题在于归档和检索大型 HTML 数据集，我对此一无所知。我的朋友建议我使用网络存档和普通爬网。请向我建议一种将 HTML 数据集转换为网络存档的方法以及如何对它们进行索引。提前致谢。

war common-crawl warc bigdata

2016-08-18T13:06:27.890

0 投票

2 回答

1368 浏览

wget - wget --warc-file --recursive，防止写入单个文件

我运行 wget 来创建一个warc存档，如下所示：

我只需要epfl.warc.gz文件。如何防止wget创建所有单个文件？

我尝试如下：

wget warc

2016-09-02T13:21:07.733

0 投票

0 回答

78 浏览

java - 如何在Java中查找warc.gz文件中的记录数

我正在提取存储在 warc.gz 文件中的 html 文件的所需内容。但我不确定 .gz 实现记录中有多少个 html 文件。

java warc

2016-10-06T18:56:59.810

0 投票

2 回答

4356 浏览

python - 用python读取warc文件

我想读取一个warc文件，并根据此页面编写了以下代码，但没有打印任何内容！

但是，当我编写以下命令时，我得到了结果

请注意，我的 warc 文件是来自 Clueweb09 数据集的文件之一。我提到它是因为这个页面。

python warc

2016-10-18T03:26:24.280

0 投票

2 回答

243 浏览

web-crawler - 将 Nutch 爬网中的数据转储到多个 warc 文件中

我已经使用 Nutch 1.12 抓取了一个网站列表。我可以使用以下方法将爬网数据转储到单独的 HTML 文件中：

并使用以下方法进入单个 WARC 文件：

但是如何将收集到的数据转储到多个 WARC 文件中，每个抓取的网页一个？

web-crawler nutch warc

2016-10-24T14:41:25.147

0 投票

1 回答

98 浏览

json - 对 Kibana 导入感到困惑

我想知道如何使用 kibana 导入数据。实际上，这对我来说是一个困惑。我尝试使用 kibana 加载 json 文件，但它没有导入它。
其次，如果我想使用 Warc 文件，他们是否需要将其转换为 JSON 文件，然后将其导入，或者是否有任何其他我需要处理的解决方案。
希望听到答复。

json elasticsearch kibana-4 bitnami warc

2016-11-19T09:02:28.973

1 2 3 4 5 6 7 8 9 10

问题标签 [warc]

Reference