问题标签 [warc]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
426 浏览

python - 使用 warcio 创建一个带有 requests.get() 响应的 warc 记录

我正在使用该warcio库来读取和写入warc文件。

尝试从 写入响应对象的记录时requests.get(URL,stream=False)warcio仅将 HTTP 标头写入记录,而不写入有效负载。但是,启用流模式后,它可以正常工作。

未启用流模式时,有没有办法存储有效负载?

0 投票
0 回答
100 浏览

java - 如何从 org.archive.io.ArchiveRecord 重建 org.archive.io.warc.WARCRecordInfo?

使用java,我需要读取一个warc归档文件,根据html页面的内容对其进行过滤,并编写一个新的归档文件。

以下代码读取存档。如何org.archive.io.warc.WARCRecordInfo从一个重建一个org.archive.io.ArchiveRecord

0 投票
2 回答
1659 浏览

python - 高效读取 WARC 文件

我正在使用 python 的“warc”库读取 WARC 文件。我正在使用的当前文件约为 4.50 GB。事情是 ;

执行这 2 行最多需要 40 秒。因为像这样的文件还有 64000 个,所以每个文件需要 40 秒是不可接受的。你们有任何提高性能的技巧或任何不同的方法吗?

编辑:我发现 Beautifulsoup 操作需要一些时间。所以我删除了它并自己写了必要的东西。现在速度快了 100 倍。读取和处理 4.50 GB 数据需要 +- 60 秒。通过这行代码,我从数据中删除了脚本;

有了这个,我拆分了文本并删除了我不需要的图章

正如我所说,它更快,但在这种情况下 60 秒并不是那么好。有什么建议么 ?

0 投票
1 回答
275 浏览

apache-spark - 使用函数在迭代器上触发并行化

我有一个迭代器,它对 WARC 文档序列进行操作,并为每个文档生成修改后的令牌列表:

现在我应用 apache spark paraellize 进一步应用所需的地图功能:

我有以下疑问:

  1. 这是实现这一目标的最佳方法还是有更简单的方法?
  2. 当我并行化迭代器时,实际处理是否并行发生?还是顺序的吗?
  3. 如果我有多个文件怎么办?我怎样才能将它扩展到一个非常大的语料库,比如 TB?
0 投票
0 回答
30 浏览

scala - 火花配置与输入结构的相互作用

Spark 有许多可配置的选项。在这里,我想知道在某些约束下的最佳配置是什么。

我已经看过很多这样的帖子,并且认为忽略数据结构的方法不会产生令人满意的解决方案。

集群配置

我们将设置已经建立的--executor-cores 5,因为之前所做的研究。让我们设置另一个约束,使得--executor-memory 60 Gb是阈值最大值。这可以表示为--executor-memory= min(60 Gb, EM)。

我们将集群中的节点数固定为N_0,这隐含地调节--num-executors(等于N_0 * average num-cores on node / 5)。

数据配置

我们以FN_0加载FSRDD. 这RDD最初的分区号PN等于FN_0。将所有文件加载到 RDD 中会产生记录RN = RDD.count()

问题

我想为 Input -> Map -> Filter -> Action 作业找到一个定性表达式或最佳解决方案--executor-memory--num-executors以及分区号。它们的相互依赖是什么?PNN_0,FN_0,FS,RN

我的假设是分区数在RN(大约 100.000)时是理想的,因此每条记录都有自己的任务,但是这种洗牌会以天文数字的方式扩展。对于他的产品FN_0 * FS--executor-memory.

0 投票
0 回答
62 浏览

arabic - Openwayback 搜索不适用于 URL 中的阿拉伯网站

我已经安装并设置了openwayback 的基础知识,现在尝试使其与以下资源一起使用

设置:

  1. 我用webrecorder.io下载了上面的warc文件。
  2. 将openwayback配置为最低限度并将warc文件放入数据文件夹
  3. 打开网络应用程序尝试搜索该确切地址

结果:

  1. 什么都找不到。地址变成

    http://localhost:8855/wayback/19960101000000-20181231235959 */ https://moj.gov.ae/documents/21128/102233/????+????+???????+? ??+18+??????+2017+??????+??????+??????+???????+??????????+? ????????.pdf

  2. 但例如,如果我只输入https://moj.gov.ae,那么我可以找到URL encoded. 但即使我将整个 URL 编码复制到搜索栏中,也没有任何结果。

我的期望:

  1. 如果您复制整个 URL,无论是否是阿拉伯语,该特定文档必须显示
  2. 搜索结果应该是非编码形式

有没有我错过的设置?

0 投票
1 回答
131 浏览

node.js - 未在函数 nodejs 中设置变量

我想通过在函数中解析一个warc文件来将JSON数据分配给一个变量。该变量在函数外部不可访问,并在控制台上返回一个空数组。

0 投票
1 回答
207 浏览

python - Mapreduce 回车

我想使用输入格式 s3a 在 MapReduce 中处理 CommonCrawl WARC 文件。

问题是输入行末尾的回车符被删除,取而代之的是制表符(因为它是默认分隔符)。

为什么会这样?

这是我启动 MapReduce 的代码

映射器.py

0 投票
0 回答
40 浏览

python - 如何为 robots.txt 信息解析 warc 数据

我正在编写以下代码以从 warc 文件中获取值。我的目标是找到具有以下内容的网站:

我希望它只打印具有上述 robots.txt 规则的 URL ^

我的 Python 代码目前只打印一行 URL:

这是一个示例warc文件

谢谢你的帮助!

0 投票
0 回答
213 浏览

python - 使用 python 3 打开 Clueweb warc 文件

我想在 Python3 中打开 ClueWeb09 warc 文件,我可以使用这个在 python2 中打开它,但我需要在其他 python 版本中打开它,因为我需要在 python3 中存在的其他库。

我试图将此代码改编为 python 3,但我没有获得有效的解决方案。我也尝试过使用warcio 库warc3-wet但这两个都不适用于 ClueWeb09 格式。

我的最终目标是从这个集合中提取一些特征