问题标签 [warc]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2072 浏览

python - 如何从 warc.wet.gz 中提取每个有效载荷?

我一直在尝试从 Common Crawl 的湿文件中提取文本数据。我目前正在使用 Internet Archieve https://github.com/internetarchive/warc的 warc 解析器

但是这种方法提供的数据不到有效载荷中的一半。有没有其他更好的方法可以提供文件中每个有效负载中的所有数据。

0 投票
1 回答
163 浏览

java - 使用正则表达式进行流模式匹配

我想解析一个以 Warc 0.9 版格式化的大文本文件。此类文本的示例在此处。如果您查看它,您会发现整个文档由以下条目列表组成。

我需要从每个条目中提取 URL 和 HTML 内容(请注意,示例文件由多个页面条目组成,每个条目的格式都与上面的内容类似。)

我在 Java 中使用了以下正则表达式:

其中第 1 组和第 2 组分别代表 URL 和 HTML 内容。这段代码有两个问题:

  1. 找到匹配项非常慢。
  2. 仅与第一页匹配。

Java 代码:

问题:

  • 为什么我的代码只解析第一页条目?
  • 有没有更快的方法以流方式解析大文本?
0 投票
0 回答
148 浏览

python - 在 python3 中处理 WARC 文件时发生“搜索模式已耗尽”

我正在尝试从 WARC 数据集 ( yahoo!webscope L2ValueError: Search for pattern exhausted ) 中获取一些纯文本,并在使用load()python3 模块中的函数时保持会议warcat。尝试了一些随机的 WARC 示例文件,一切正常。

该数据集确实要求提供进一步的提交许可(然后根据自述文件提供密码;WARC 文件是否带有密码?)但现在我没有能力发送传真。

我还检查了warcat源代码,发现ValueError当 file_obj.read(size) 为 False 时会引发 。好像没啥意思,所以来这里问。。。

编码:

提前致谢。

0 投票
1 回答
1846 浏览

python - Python 无法完全读取“warc.gz”文件

对于我的工作,我抓取网站并将它们写入 gzip 压缩的网络档案(扩展名为“warc.gz”)。我使用 Python 2.7.11 和 warc 0.2.1 库。

我注意到对于大多数文件,我无法使用 warc-library 完全阅读它们。例如,如果 warc.gz 文件有 517 条记录,我只能读取其中大约 200 条。

经过一些研究,我发现这个问题只发生在 gzipped 文件中。扩展名为“warc”的文件没有这个问题。

我发现有些人也有这个问题(https://github.com/internetarchive/warc/issues/21),但没有找到解决方案。

我猜 Python 2.7.11 中的“gzip”可能存在错误。也许有人有这方面的经验,并且知道可以解决这个问题吗?

提前致谢!

例子:

我像这样创建新的 warc.gz 文件:

要写我使用的记录:

这将创建完美的“warc.gz”文件。他们没有问题。所有,包括 "\r\n" 都是正确的。但是当我阅读这些文件时问题就开始了。

要读取我使用的文件:

要遍历我使用的记录:

问题是,在“warc.gz”文件的循环过程中,并非所有记录都找到了,而“warc”文件中的所有记录都找到了。warc-library 本身解决了使用这两种类型的文件。

0 投票
1 回答
296 浏览

war - 如何归档和检索大型 HTML 数据集?

我是一个新生,我即将参加这个周末的比赛。问题在于归档和检索大型 HTML 数据集,我对此一无所知。我的朋友建议我使用网络存档和普通爬网。请向我建议一种将 HTML 数据集转换为网络存档的方法以及如何对它们进行索引。提前致谢。

0 投票
2 回答
1368 浏览

wget - wget --warc-file --recursive,防止写入单个文件

我运行 wget 来创建一个warc存档,如下所示:

我只需要epfl.warc.gz文件。如何防止wget创建所有单个文件?

我尝试如下:

0 投票
0 回答
78 浏览

java - 如何在Java中查找warc.gz文件中的记录数

我正在提取存储在 warc.gz 文件中的 html 文件的所需内容。但我不确定 .gz 实现记录中有多少个 html 文件。

0 投票
2 回答
4356 浏览

python - 用python读取warc文件

我想读取一个warc文件,并根据此页面编写了以下代码,但没有打印任何内容!

但是,当我编写以下命令时,我得到了结果

请注意,我的 warc 文件是来自 Clueweb09 数据集的文件之一。我提到它是因为这个页面

0 投票
2 回答
243 浏览

web-crawler - 将 Nutch 爬网中的数据转储到多个 warc 文件中

我已经使用 Nutch 1.12 抓取了一个网站列表。我可以使用以下方法将爬网数据转储到单独的 HTML 文件中:

并使用以下方法进入单个 WARC 文件:

但是如何将收集到的数据转储到多个 WARC 文件中,每个抓取的网页一个?

0 投票
1 回答
98 浏览

json - 对 Kibana 导入感到困惑

我想知道如何使用 kibana 导入数据。实际上,这对我来说是一个困惑。我尝试使用 kibana 加载 json 文件,但它没有导入它。
其次,如果我想使用 Warc 文件,他们是否需要将其转换为 JSON 文件,然后将其导入,或者是否有任何其他我需要处理的解决方案。
希望听到答复。