问题标签 [warc]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

54 问题

0 投票

0 回答

40 浏览

python - 更改分隔符以在 pyspark 中读取文件

我正在尝试使用 PySpark 将 .warc.gz 文件读取到 RDD。我希望分隔符是三个换行符，这样我就可以将每条记录作为 RDD 的一个元素来读取，以便解析它们并使用信息。首先，我对阅读响应记录的 html 内容感兴趣。

我努力了

checkResponse 是一个将每个 RDD 元素解析为 warc 记录并使用 python 库提取一些信息的函数。

2016-11-24T17:48:36.810

0 投票

1 回答

754 浏览

python - 在 python 中将网页和相关资源下载到 WARC

我有兴趣下载一堆网页以供以后分析。我想做两件事：

将页面和相关资源（图像、与文章相关的多个页面等）下载到 WARC 文件。
将所有链接更改为指向现在的本地文件。

我想在 Python 中做到这一点。

有没有什么好的图书馆可以做到这一点？Scrapy 似乎旨在抓取网站，而不是单个页面，我不确定如何生成 WARC 文件。如果没有更多的 python 原生的东西，调用 wget 是一个可行的解决方案。Heritrix 完全是矫枉过正，而不是 Python 解决方案。如果 wpull 有一个有据可查的 python 库，它会是理想的，但它似乎主要是一个应用程序。

还有其他想法吗？

python webpage scrape warc

2016-12-17T03:37:10.043

0 投票

1 回答

165 浏览

python-3.x - 如何在python3中使用lzma（* .warc.xz）压缩warc记录？

我有一份warc记录列表。列表中的每个项目都是这样创建的：

现在，我使用 *.warc.gz 来存储我的记录，如下所示：

并像这样写记录：

但是如何将 lzma 压缩为 *.warc.xz？我尝试在调用warc.open时用xz替换gz，但是python3中的warc不支持这种格式。我找到了这个试验，但我无法用这个来保存 WARCRecord：

错误信息是：

TypeError：需要一个类似字节的对象，而不是“WARCRecord”

谢谢你的帮助。

python-3.x lzma xz warc

2017-01-14T12:36:52.850

0 投票

0 回答

155 浏览

nutch - 使用 Apache Nutch 获取常见的爬网数据

我在常见的爬网网站上找到我的数据，然后从那里下载这些数据

现在我必须使用 Apache Nutch 获取该数据，但不知道如何。

此文件为warc 文件格式。

nutch warc common-crawl

2017-01-17T07:44:33.977

0 投票

1 回答

134 浏览

nutch - 如何将 Nutch 2.3 数据转储到 WARC 文件中？

我需要将 Nutch 2.3 中的数据转储到 WARC 文件中。但是，我找不到必要的模块。Nutch 1.x 具有这种能力。我想知道正确的方法。

nutch warc

2017-01-26T10:16:45.700

0 投票

1 回答

328 浏览

python - 无法从从普通爬网爬取的 warc 文件中找到 url

我已经从普通爬取中爬取了数据，我想找出每条记录对应的 url。

这会输出一个空列表。我指的是以下链接 https://dmorgan.info/posts/common-crawl-python/。我们是得到与每条记录相对应的目标 uri，还是只为一个 warc 文件路径获取一个目标 uri？

python record common-crawl warc

2017-07-17T11:56:45.643

0 投票

0 回答

171 浏览

python-requests - requests.get() 不抓取给定warc路径的整个常见抓取记录

我已经按照此链接中的说明实施了https://dmorgan.info/posts/common-crawl-python/ 。但是，与本文所述不同，我想抓取整个数据而不是部分数据。所以，在这个代码块中，

我做了以下更改：

此代码块增加了给定 warc 路径的记录数，但它不会爬取全部记录数。我找不到相同的可能原因。任何帮助，将不胜感激。

python-requests common-crawl warc

2017-08-10T04:58:50.367

0 投票

1 回答

556 浏览

apache-spark - 将从 Common Crawl 下载的 warc.gz 文件转换为 RDD

我已经从 common crawl 下载了一个warc.gz文件，我必须使用 spark 处理它。如何将文件转换为 RDD？sc.textFile("filepath")似乎没有帮助。打印时rdd.take(1)，它给了我[u'WARC/1.0']，而它应该给了我完整的记录。如何将文件转换为可处理的 rdd？谢谢！

apache-spark pyspark rdd common-crawl warc

2017-08-23T12:33:40.670

0 投票

1 回答

864 浏览

python-2.7 - 常用爬网关键字查找

我想查找具有特定关键字的所有网站的列表。例如，如果我搜索关键字“体育”或“足球”，则只需从常见的爬网中提取相关的网站 URL、标题、描述和图像.warc 文件。目前我可以很好地阅读带有以下代码的warc文件。

但它正在获取指定 warc 文件中的所有 url。我只需要与“体育”或“足球”匹配的相关网址。如何在 warc 文件中搜索该关键字？请帮助我，因为我是普通爬行的新手。我也检查了很多帖子，但没有一个成功。

如果他们有，我需要抓取文章图像，我怎样才能将它作为 commoncrawl 来保存整个网页。？

python-2.7 python-3.x elasticsearch common-crawl warc

2017-10-02T08:10:02.243

0 投票

1 回答

1013 浏览

python - 根据 url 从 WARC 文件中检索记录

我必须从基于 Target-URI 的 *.warc.gz 文件中检索记录。文档说这需要创建外部 CDXJ 索引文件。

我尝试以 as 打开文件gzip.open()并执行 a seek(offset)，但查找操作需要相当长的时间（秒）。

有没有其他正确的方法来检索记录。

编辑：我正在使用warc python库，他们似乎没有在warc文件上提供直接的 f.seek() 。

python python-3.x warc

2018-03-20T06:46:37.283

1 2 3 4 5 6 7 8 9 10

问题标签 [warc]

Reference