问题标签 [warc]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

54 问题

0 投票

1 回答

426 浏览

python - 使用 warcio 创建一个带有 requests.get() 响应的 warc 记录

我正在使用该warcio库来读取和写入warc文件。

尝试从写入响应对象的记录时requests.get(URL,stream=False)，warcio仅将 HTTP 标头写入记录，而不写入有效负载。但是，启用流模式后，它可以正常工作。

未启用流模式时，有没有办法存储有效负载？

2018-03-22T12:52:42.157

0 投票

0 回答

100 浏览

java - 如何从 org.archive.io.ArchiveRecord 重建 org.archive.io.warc.WARCRecordInfo？

使用java，我需要读取一个warc归档文件，根据html页面的内容对其进行过滤，并编写一个新的归档文件。

以下代码读取存档。如何org.archive.io.warc.WARCRecordInfo从一个重建一个org.archive.io.ArchiveRecord？

java warc

2018-06-22T14:44:51.610

0 投票

2 回答

1659 浏览

python - 高效读取 WARC 文件

我正在使用 python 的“warc”库读取 WARC 文件。我正在使用的当前文件约为 4.50 GB。事情是 ;

执行这 2 行最多需要 40 秒。因为像这样的文件还有 64000 个，所以每个文件需要 40 秒是不可接受的。你们有任何提高性能的技巧或任何不同的方法吗？

编辑：我发现 Beautifulsoup 操作需要一些时间。所以我删除了它并自己写了必要的东西。现在速度快了 100 倍。读取和处理 4.50 GB 数据需要 +- 60 秒。通过这行代码，我从数据中删除了脚本；

有了这个，我拆分了文本并删除了我不需要的图章

正如我所说，它更快，但在这种情况下 60 秒并不是那么好。有什么建议么？

python byte common-crawl warc

2018-08-10T12:19:14.987

0 投票

1 回答

275 浏览

apache-spark - 使用函数在迭代器上触发并行化

我有一个迭代器，它对 WARC 文档序列进行操作，并为每个文档生成修改后的令牌列表：

现在我应用 apache spark paraellize 进一步应用所需的地图功能：

我有以下疑问：

这是实现这一目标的最佳方法还是有更简单的方法？
当我并行化迭代器时，实际处理是否并行发生？还是顺序的吗？
如果我有多个文件怎么办？我怎样才能将它扩展到一个非常大的语料库，比如 TB？

apache-spark pyspark warc

2018-08-25T13:09:08.527

0 投票

0 回答

30 浏览

scala - 火花配置与输入结构的相互作用

Spark 有许多可配置的选项。在这里，我想知道在某些约束下的最佳配置是什么。

我已经看过很多这样的帖子，并且认为忽略数据结构的方法不会产生令人满意的解决方案。

集群配置

我们将设置已经建立的--executor-cores 5，因为之前所做的研究。让我们设置另一个约束，使得--executor-memory 60 Gb是阈值最大值。这可以表示为--executor-memory= min(60 Gb, EM)。

我们将集群中的节点数固定为N_0，这隐含地调节--num-executors（等于N_0 * average num-cores on node / 5）。

数据配置

我们以FN_0加载FS到RDD. 这RDD最初的分区号PN等于FN_0。将所有文件加载到 RDD 中会产生记录RN = RDD.count()。

问题

我想为 Input -> Map -> Filter -> Action 作业找到一个定性表达式或最佳解决方案--executor-memory，--num-executors以及分区号。它们的相互依赖是什么？PNN_0,FN_0,FS,RN

我的假设是分区数在RN（大约 100.000）时是理想的，因此每条记录都有自己的任务，但是这种洗牌会以天文数字的方式扩展。对于他的产品FN_0 * FS和--executor-memory.

scala performance apache-spark cluster-computing warc

2018-10-23T12:51:15.280

0 投票

0 回答

62 浏览

arabic - Openwayback 搜索不适用于 URL 中的阿拉伯网站

我已经安装并设置了openwayback 的基础知识，现在尝试使其与以下资源一起使用

设置：

我用webrecorder.io下载了上面的warc文件。
将openwayback配置为最低限度并将warc文件放入数据文件夹
打开网络应用程序尝试搜索该确切地址

结果：

什么都找不到。地址变成

http://localhost:8855/wayback/19960101000000-20181231235959 */ https://moj.gov.ae/documents/21128/102233/????+????+???????+? ??+18+??????+2017+??????+??????+??????+???????+??????????+? ????????.pdf
但例如，如果我只输入https://moj.gov.ae，那么我可以找到URL encoded. 但即使我将整个 URL 编码复制到搜索栏中，也没有任何结果。

我的期望：

如果您复制整个 URL，无论是否是阿拉伯语，该特定文档必须显示
搜索结果应该是非编码形式

有没有我错过的设置？

arabic webarchive warc

2018-11-06T10:24:30.920

0 投票

1 回答

131 浏览

node.js - 未在函数 nodejs 中设置变量

我想通过在函数中解析一个warc文件来将JSON数据分配给一个变量。该变量在函数外部不可访问，并在控制台上返回一个空数组。

node.js file variables warc

2019-01-09T07:16:46.687

0 投票

1 回答

207 浏览

python - Mapreduce 回车

我想使用输入格式 s3a 在 MapReduce 中处理 CommonCrawl WARC 文件。

问题是输入行末尾的回车符被删除，取而代之的是制表符（因为它是默认分隔符）。

为什么会这样？

这是我启动 MapReduce 的代码

映射器.py

python mapreduce warc

2019-01-18T20:53:21.143

0 投票

0 回答

40 浏览

python - 如何为 robots.txt 信息解析 warc 数据

我正在编写以下代码以从 warc 文件中获取值。我的目标是找到具有以下内容的网站：

我希望它只打印具有上述 robots.txt 规则的 URL ^

我的 Python 代码目前只打印一行 URL：

这是一个示例warc文件

谢谢你的帮助！

python warc

2019-03-12T21:00:47.603

0 投票

0 回答

213 浏览

python - 使用 python 3 打开 Clueweb warc 文件

我想在 Python3 中打开 ClueWeb09 warc 文件，我可以使用这个库在 python2 中打开它，但我需要在其他 python 版本中打开它，因为我需要在 python3 中存在的其他库。

我试图将此代码改编为 python 3，但我没有获得有效的解决方案。我也尝试过使用warcio 库和warc3-wet但这两个都不适用于 ClueWeb09 格式。

我的最终目标是从这个集合中提取一些特征

python python-3.x warc

2019-05-03T08:31:12.563

1 2 3 4 5 6 7 8 9 10

问题标签 [warc]

集群配置

数据配置

Reference