问题标签 [warc]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
40 浏览

python - 更改分隔符以在 pyspark 中读取文件

我正在尝试使用 PySpark 将 .warc.gz 文件读取到 RDD。我希望分隔符是三个换行符,这样我就可以将每条记录作为 RDD 的一个元素来读取,以便解析它们并使用信息。首先,我对阅读响应记录的 html 内容感兴趣。

我努力了

checkResponse 是一个将每个 RDD 元素解析为 warc 记录并使用 python 库提取一些信息的函数。

0 投票
1 回答
754 浏览

python - 在 python 中将网页和相关资源下载到 WARC

我有兴趣下载一堆网页以供以后分析。我想做两件事:

  • 将页面和相关资源(图像、与文章相关的多个页面等)下载到 WARC 文件。
  • 将所有链接更改为指向现在的本地文件。

我想在 Python 中做到这一点。

有没有什么好的图书馆可以做到这一点?Scrapy 似乎旨在抓取网站,而不是单个页面,我不确定如何生成 WARC 文件。如果没有更多的 python 原生的东西,调用 wget 是一个可行的解决方案。Heritrix 完全是矫枉过正,而不是 Python 解决方案。如果 wpull 有一个有据可查的 python 库,它会是理想的,但它似乎主要是一个应用程序。

还有其他想法吗?

0 投票
1 回答
165 浏览

python-3.x - 如何在python3中使用lzma(* .warc.xz)压缩warc记录?


我有一份warc记录列表。列表中的每个项目都是这样创建的:

现在,我使用 *.warc.gz 来存储我的记录,如下所示:

并像这样写记录:

但是如何将 lzma 压缩为 *.warc.xz?我尝试在调用warc.open时用xz替换gz,但是python3中的warc不支持这种格式。我找到了这个试验,但我无法用这个来保存 WARCRecord:

错误信息是:

TypeError:需要一个类似字节的对象,而不是“WARCRecord”

谢谢你的帮助。

0 投票
0 回答
155 浏览

nutch - 使用 Apache Nutch 获取常见的爬网数据

我在常见的爬网网站上找到我的数据,然后从那里下载这些数据

现在我必须使用 Apache Nutch 获取该数据,但不知道如何。

此文件为warc 文件格式。

0 投票
1 回答
134 浏览

nutch - 如何将 Nutch 2.3 数据转储到 WARC 文件中?

我需要将 Nutch 2.3 中的数据转储到 WARC 文件中。但是,我找不到必要的模块。Nutch 1.x 具有这种能力。我想知道正确的方法。

0 投票
1 回答
328 浏览

python - 无法从从普通爬网爬取的 warc 文件中找到 url

我已经从普通爬取中爬取了数据,我想找出每条记录对应的 url。

这会输出一个空列表。我指的是以下链接 https://dmorgan.info/posts/common-crawl-python/。我们是得到与每条记录相对应的目标 uri,还是只为一个 warc 文件路径获取一个目标 uri?

0 投票
0 回答
171 浏览

python-requests - requests.get() 不抓取给定warc路径的整个常见抓取记录

我已经按照此链接中的说明实施了https://dmorgan.info/posts/common-crawl-python/ 。但是,与本文所述不同,我想抓取整个数据而不是部分数据。所以,在这个代码块中,

我做了以下更改:

此代码块增加了给定 warc 路径的记录数,但它不会爬取全部记录数。我找不到相同的可能原因。任何帮助,将不胜感激。

0 投票
1 回答
556 浏览

apache-spark - 将从 Common Crawl 下载的 warc.gz 文件转换为 RDD

我已经从 common crawl 下载了一个warc.gz文件,我必须使用 spark 处理它。如何将文件转换为 RDD?sc.textFile("filepath")似乎没有帮助。打印时rdd.take(1),它给了我[u'WARC/1.0'],而它应该给了我完整的记录。如何将文件转换为可处理的 rdd?谢谢!

0 投票
1 回答
864 浏览

python-2.7 - 常用爬网关键字查找

我想查找具有特定关键字的所有网站的列表。例如,如果我搜索关键字“体育”或“足球”,则只需从常见的爬网中提取相关的网站 URL、标题、描述和图像.warc 文件。目前我可以很好地阅读带有以下代码的warc文件。

但它正在获取指定 warc 文件中的所有 url。我只需要与“体育”或“足球”匹配的相关网址。如何在 warc 文件中搜索该关键字?请帮助我,因为我是普通爬行的新手。我也检查了很多帖子,但没有一个成功。

如果他们有,我需要抓取文章图像,我怎样才能将它作为 commoncrawl 来保存整个网页。?

0 投票
1 回答
1013 浏览

python - 根据 url 从 WARC 文件中检索记录

我必须从基于 Target-URI 的 *.warc.gz 文件中检索记录。文档说这需要创建外部 CDXJ 索引文件。

我尝试以 as 打开文件gzip.open()并执行 a seek(offset),但查找操作需要相当长的时间(秒)。

有没有其他正确的方法来检索记录。

编辑:我正在使用warc python库,他们似乎没有在warc文件上提供直接的 f.seek() 。