问题标签 [warc]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 使用 warcio 创建一个带有 requests.get() 响应的 warc 记录
我正在使用该warcio
库来读取和写入warc
文件。
尝试从 写入响应对象的记录时requests.get(URL,stream=False)
,warcio
仅将 HTTP 标头写入记录,而不写入有效负载。但是,启用流模式后,它可以正常工作。
未启用流模式时,有没有办法存储有效负载?
java - 如何从 org.archive.io.ArchiveRecord 重建 org.archive.io.warc.WARCRecordInfo?
使用java,我需要读取一个warc归档文件,根据html页面的内容对其进行过滤,并编写一个新的归档文件。
以下代码读取存档。如何org.archive.io.warc.WARCRecordInfo
从一个重建一个org.archive.io.ArchiveRecord
?
python - 高效读取 WARC 文件
我正在使用 python 的“warc”库读取 WARC 文件。我正在使用的当前文件约为 4.50 GB。事情是 ;
执行这 2 行最多需要 40 秒。因为像这样的文件还有 64000 个,所以每个文件需要 40 秒是不可接受的。你们有任何提高性能的技巧或任何不同的方法吗?
编辑:我发现 Beautifulsoup 操作需要一些时间。所以我删除了它并自己写了必要的东西。现在速度快了 100 倍。读取和处理 4.50 GB 数据需要 +- 60 秒。通过这行代码,我从数据中删除了脚本;
有了这个,我拆分了文本并删除了我不需要的图章
正如我所说,它更快,但在这种情况下 60 秒并不是那么好。有什么建议么 ?
apache-spark - 使用函数在迭代器上触发并行化
我有一个迭代器,它对 WARC 文档序列进行操作,并为每个文档生成修改后的令牌列表:
现在我应用 apache spark paraellize 进一步应用所需的地图功能:
我有以下疑问:
- 这是实现这一目标的最佳方法还是有更简单的方法?
- 当我并行化迭代器时,实际处理是否并行发生?还是顺序的吗?
- 如果我有多个文件怎么办?我怎样才能将它扩展到一个非常大的语料库,比如 TB?
scala - 火花配置与输入结构的相互作用
Spark 有许多可配置的选项。在这里,我想知道在某些约束下的最佳配置是什么。
我已经看过很多这样的帖子,并且认为忽略数据结构的方法不会产生令人满意的解决方案。
集群配置
我们将设置已经建立的--executor-cores 5
,因为之前所做的研究。让我们设置另一个约束,使得--executor-memory 60 Gb
是阈值最大值。这可以表示为--executor-memory
= min(60 Gb, EM
)。
我们将集群中的节点数固定为N_0
,这隐含地调节--num-executors
(等于N_0 * average num-cores on node / 5
)。
数据配置
我们以FN_0
加载FS
到RDD
. 这RDD
最初的分区号PN
等于FN_0
。将所有文件加载到 RDD 中会产生记录RN = RDD.count()
。
问题
我想为 Input -> Map -> Filter -> Action 作业找到一个定性表达式或最佳解决方案--executor-memory
,--num-executors
以及分区号。它们的相互依赖是什么?PN
N_0,FN_0,FS,RN
我的假设是分区数在RN
(大约 100.000)时是理想的,因此每条记录都有自己的任务,但是这种洗牌会以天文数字的方式扩展。对于他的产品FN_0 * FS
和--executor-memory
.
arabic - Openwayback 搜索不适用于 URL 中的阿拉伯网站
我已经安装并设置了openwayback 的基础知识,现在尝试使其与以下资源一起使用
设置:
- 我用webrecorder.io下载了上面的warc文件。
- 将openwayback配置为最低限度并将warc文件放入数据文件夹
- 打开网络应用程序尝试搜索该确切地址
结果:
什么都找不到。地址变成
http://localhost:8855/wayback/19960101000000-20181231235959 */ https://moj.gov.ae/documents/21128/102233/????+????+???????+? ??+18+??????+2017+??????+??????+??????+???????+??????????+? ????????.pdf
但例如,如果我只输入https://moj.gov.ae,那么我可以找到
URL encoded
. 但即使我将整个 URL 编码复制到搜索栏中,也没有任何结果。
我的期望:
- 如果您复制整个 URL,无论是否是阿拉伯语,该特定文档必须显示
- 搜索结果应该是非编码形式
有没有我错过的设置?
node.js - 未在函数 nodejs 中设置变量
我想通过在函数中解析一个warc文件来将JSON数据分配给一个变量。该变量在函数外部不可访问,并在控制台上返回一个空数组。
python - Mapreduce 回车
我想使用输入格式 s3a 在 MapReduce 中处理 CommonCrawl WARC 文件。
问题是输入行末尾的回车符被删除,取而代之的是制表符(因为它是默认分隔符)。
为什么会这样?
这是我启动 MapReduce 的代码
映射器.py
python - 如何为 robots.txt 信息解析 warc 数据
我正在编写以下代码以从 warc 文件中获取值。我的目标是找到具有以下内容的网站:
我希望它只打印具有上述 robots.txt 规则的 URL ^
我的 Python 代码目前只打印一行 URL:
这是一个示例warc文件
谢谢你的帮助!