问题标签 [warc]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
5661 浏览

android - 如何在android中读取.webarchive文件

我有这样的要求。我想阅读 .webarchive 文件。我有一个扩展名为 .webarchive 的文件,我已将该文件放在资产文件夹中。我想在 android webview 上阅读该文件。可能吗?

我用谷歌搜索并找到了一些有用的链接。这个 git 内容真的很有帮助。它所做的就是将提取的 .webarchive 文件内容放在资产文件夹中,然后从那里将数据显示在 webview 上。我的疑问是我不想将提取的内容放入资产中。我有 .webarchive 扩展名中的文件,并希望它直接在 webview 中打开。

我猜 zipInputStream 只是用于带有 zip 格式扩展名的文件名,另一件事是我读了一些地方,只有那些 zip 文件将用 ZipInputStram 提取,这些文件已经用 WinRar 软件压缩,在我的情况下,我尝试的是我有尝试使用以下方法http://pastie.org/8516247解压缩 webarchive 文件,这是我得到的日志

http://pastie.org/8516249 ,

现在从这个日志中你可以看到命令甚至没有进入第 6 行的 while 循环中,这证明了这一点:

如果我在第 4 行使用任何 zip 文件代替 test.warc,而不是命令进入 while 循环,这意味着这个 ZipInputStream 完全忽略了 .WARC 文件,不是吗?

因此,如果有人知道如何提取 .webarchive 文件或读取 .webarchive 文件而不提取它,请帮助我。

如果有人有想法,请帮助我

谢谢

0 投票
1 回答
415 浏览

python - 如何在python中为warc文件编写流式mapreduce作业

我正在尝试使用python的WARC库为warc文件编写mapreduce作业。以下代码对我有用,但我需要此代码用于 hadoop mapreduce 作业。

我希望这段代码从warc文件中读取流输入,即

请告诉我如何修改此代码以进行流式输入。谢谢

0 投票
1 回答
999 浏览

java - 如何使用带有 Heritrix 3.1 的 HeaderedArchiveRecord 循环浏览 WARC 文件

我正在使用 Heritrix 3.1 Java 库。为了清楚起见,我对抓取不感兴趣,而只对处理来自另一个团队生成的压缩 WARC (*.warc.gz) 文件的数据感兴趣。对于存储在 WARC 文件中的每个 WWW 文档,我需要一些来自记录头的信息,一些来自 HTTP 头的信息,以及 HTTP 有效负载/正文的完整内容,所以我认为我需要使用 HeaderedArchiveRecord 类。

当我运行它时,我得到了一个异常

我的第 754 行如上所示。我的makeDocumentHeritrix(...)方法中的代码曾经引发类似的异常,但Failed to find WARC_MAGIC直到我将行hrecord.skipHttpHeader();移到它之前Header[] httpHeader = record.getContentHeaders();

我试图在网上搜索代码示例以循环遍历 WARC 文件中的记录,但没有找到任何代码示例,我记得几年前我使用 heritrix 1.14 做类似的事情时,我不得不做一些奇怪的事情来操作文件中的偏移量,但是 WARCReader 中的相关方法现在都是私有的或受保护的,所以我不希望用较新的库来做这件事。

0 投票
1 回答
765 浏览

python - 从 WARC.gz 文件中提取标头

我一直在搜索该网站很多,但无法真正找到我需要的东西。我有包含数据的 web.warc.gz 文件,我需要提取 WARC 标头。我已经安装了 Tomcat 和 Wayback (1.6),试图使用 Wayback 提供的 ./warc-header 脚本来导出它,但我不断收到我正在使用的格式的错误消息:

或其他类型的错误:

我很确定这是我在命令行中编写的一种格式,但我仍然无法正确处理。请帮忙?

0 投票
2 回答
595 浏览

solr - 我们可以将 WARC 文件直接索引到 Solr 中吗?

我们可以直接将WARC文件索引到 Solr 中,而无需先从 WARC 文件中提取和存储一些中间文件(例如html格式)到硬盘上吗?

换句话说,我们可以索引这些文件而不在硬盘上存储任何东西吗?

0 投票
2 回答
2347 浏览

python-2.7 - 用python打开warc文件

我正在尝试使用以下链接中的工具箱使用 python 打开一个warc文件: http ://warc.readthedocs.org/en/latest/

使用以下命令打开文件时:

一切都很好, f 对象是:

但是,当我尝试使用以下方式读取文件中的所有内容时:

出现以下错误:

这是因为我正在使用的warc工具箱或其他东西不支持我的warc文件版本吗?

0 投票
3 回答
5671 浏览

java - 如何解析 WARC 文件?

我从此页面下载了 ClueWeb09_English_Sample.warc 文件,然后使用以下网页的给定代码将 warc 文件的数据写入文本文件。我想解析文本文件以实现文本文件中页面的内容,但我不知道我应该如何解析它。有没有办法解析warc文件而不将其转换为文本?

我想解析以下文本:

0 投票
1 回答
591 浏览

scrapy - 从 Warc 文件中读取的 Scrapy Spider

我正在寻找一个 Scrapy Spider,它不是获取 URL 并抓取它们,而是获取一个WARC文件(最好来自 S3)作为输入并将内容发送到parse方法。

我实际上需要跳过所有下载阶段,这意味着start_requests我想从方法返回一个Response然后发送到该parse方法。

这是我到目前为止所拥有的:

有什么想法Scarpy吗?

0 投票
1 回答
1075 浏览

python - 如何从 warc 文件中读取记录的子集

我正在尝试从Python 中的Common Crawl解析 .warc 文件。

由于文件很大,我想从前几条记录的样本/子集开始。

如何截断文件以仅包含前 X 行,同时保留现有的换行符/回车符?

这是我已经尝试过的:

  1. head -n 250 oldfile > newfile这删除了解析文件所需的一些返回。如果我尝试在我的 Hadoop 作业中使用这个文件(使用warc包读取它),这是我得到的错误:

    /li>
  2. 与 #1 相同,但使用tail命令

  3. 与 #1 相同,但使用tror sedafter 替换任何丢失的换行符或^M(回车符)字符。这会导致warc包仍然抱怨预期的回车或换行符没有到位。
  4. unix2dos oldfile
0 投票
0 回答
978 浏览

amazon-s3 - 在所有 Common Crawl WARC 文件中搜索一个词

我想从常见的爬网中搜索所有 WARC 文件(近 36K 的 Warc 文件)中的一个单词(例如公司名称),并在其 HTML 源内容中获取具有该公司名称的所有 url。

我想将这些 WARC 文件保留在 S3 本身中。只是我需要这些 WARC 文件中的 url 作为结果。

是否有任何可用的模块或预构建包?

我可以使用 Solr 索引吗?(但它可能需要更多内存)

提前致谢。