问题标签 [warc]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何从 warc.wet.gz 中提取每个有效载荷?
我一直在尝试从 Common Crawl 的湿文件中提取文本数据。我目前正在使用 Internet Archieve https://github.com/internetarchive/warc的 warc 解析器
但是这种方法提供的数据不到有效载荷中的一半。有没有其他更好的方法可以提供文件中每个有效负载中的所有数据。
java - 使用正则表达式进行流模式匹配
我想解析一个以 Warc 0.9 版格式化的大文本文件。此类文本的示例在此处。如果您查看它,您会发现整个文档由以下条目列表组成。
我需要从每个条目中提取 URL 和 HTML 内容(请注意,示例文件由多个页面条目组成,每个条目的格式都与上面的内容类似。)
我在 Java 中使用了以下正则表达式:
其中第 1 组和第 2 组分别代表 URL 和 HTML 内容。这段代码有两个问题:
- 找到匹配项非常慢。
- 仅与第一页匹配。
Java 代码:
问题:
- 为什么我的代码只解析第一页条目?
- 有没有更快的方法以流方式解析大文本?
python - 在 python3 中处理 WARC 文件时发生“搜索模式已耗尽”
我正在尝试从 WARC 数据集 ( yahoo!webscope L2ValueError: Search for pattern exhausted
) 中获取一些纯文本,并在使用load()
python3 模块中的函数时保持会议warcat
。尝试了一些随机的 WARC 示例文件,一切正常。
该数据集确实要求提供进一步的提交许可(然后根据自述文件提供密码;WARC 文件是否带有密码?)但现在我没有能力发送传真。
我还检查了warcat
源代码,发现ValueError
当 file_obj.read(size) 为 False 时会引发 。好像没啥意思,所以来这里问。。。
编码:
提前致谢。
python - Python 无法完全读取“warc.gz”文件
对于我的工作,我抓取网站并将它们写入 gzip 压缩的网络档案(扩展名为“warc.gz”)。我使用 Python 2.7.11 和 warc 0.2.1 库。
我注意到对于大多数文件,我无法使用 warc-library 完全阅读它们。例如,如果 warc.gz 文件有 517 条记录,我只能读取其中大约 200 条。
经过一些研究,我发现这个问题只发生在 gzipped 文件中。扩展名为“warc”的文件没有这个问题。
我发现有些人也有这个问题(https://github.com/internetarchive/warc/issues/21),但没有找到解决方案。
我猜 Python 2.7.11 中的“gzip”可能存在错误。也许有人有这方面的经验,并且知道可以解决这个问题吗?
提前致谢!
例子:
我像这样创建新的 warc.gz 文件:
要写我使用的记录:
这将创建完美的“warc.gz”文件。他们没有问题。所有,包括 "\r\n" 都是正确的。但是当我阅读这些文件时问题就开始了。
要读取我使用的文件:
要遍历我使用的记录:
问题是,在“warc.gz”文件的循环过程中,并非所有记录都找到了,而“warc”文件中的所有记录都找到了。warc-library 本身解决了使用这两种类型的文件。
war - 如何归档和检索大型 HTML 数据集?
我是一个新生,我即将参加这个周末的比赛。问题在于归档和检索大型 HTML 数据集,我对此一无所知。我的朋友建议我使用网络存档和普通爬网。请向我建议一种将 HTML 数据集转换为网络存档的方法以及如何对它们进行索引。提前致谢。
wget - wget --warc-file --recursive,防止写入单个文件
我运行 wget 来创建一个warc
存档,如下所示:
我只需要epfl.warc.gz
文件。如何防止wget
创建所有单个文件?
我尝试如下:
java - 如何在Java中查找warc.gz文件中的记录数
我正在提取存储在 warc.gz 文件中的 html 文件的所需内容。但我不确定 .gz 实现记录中有多少个 html 文件。
web-crawler - 将 Nutch 爬网中的数据转储到多个 warc 文件中
我已经使用 Nutch 1.12 抓取了一个网站列表。我可以使用以下方法将爬网数据转储到单独的 HTML 文件中:
并使用以下方法进入单个 WARC 文件:
但是如何将收集到的数据转储到多个 WARC 文件中,每个抓取的网页一个?
json - 对 Kibana 导入感到困惑
我想知道如何使用 kibana 导入数据。实际上,这对我来说是一个困惑。我尝试使用 kibana 加载 json 文件,但它没有导入它。
其次,如果我想使用 Warc 文件,他们是否需要将其转换为 JSON 文件,然后将其导入,或者是否有任何其他我需要处理的解决方案。
希望听到答复。