问题标签 [warc]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 更改分隔符以在 pyspark 中读取文件
我正在尝试使用 PySpark 将 .warc.gz 文件读取到 RDD。我希望分隔符是三个换行符,这样我就可以将每条记录作为 RDD 的一个元素来读取,以便解析它们并使用信息。首先,我对阅读响应记录的 html 内容感兴趣。
我努力了
checkResponse 是一个将每个 RDD 元素解析为 warc 记录并使用 python 库提取一些信息的函数。
python - 在 python 中将网页和相关资源下载到 WARC
我有兴趣下载一堆网页以供以后分析。我想做两件事:
- 将页面和相关资源(图像、与文章相关的多个页面等)下载到 WARC 文件。
- 将所有链接更改为指向现在的本地文件。
我想在 Python 中做到这一点。
有没有什么好的图书馆可以做到这一点?Scrapy 似乎旨在抓取网站,而不是单个页面,我不确定如何生成 WARC 文件。如果没有更多的 python 原生的东西,调用 wget 是一个可行的解决方案。Heritrix 完全是矫枉过正,而不是 Python 解决方案。如果 wpull 有一个有据可查的 python 库,它会是理想的,但它似乎主要是一个应用程序。
还有其他想法吗?
python-3.x - 如何在python3中使用lzma(* .warc.xz)压缩warc记录?
我有一份warc记录列表。列表中的每个项目都是这样创建的:
现在,我使用 *.warc.gz 来存储我的记录,如下所示:
并像这样写记录:
但是如何将 lzma 压缩为 *.warc.xz?我尝试在调用warc.open时用xz替换gz,但是python3中的warc不支持这种格式。我找到了这个试验,但我无法用这个来保存 WARCRecord:
错误信息是:
TypeError:需要一个类似字节的对象,而不是“WARCRecord”
谢谢你的帮助。
nutch - 使用 Apache Nutch 获取常见的爬网数据
我在常见的爬网网站上找到我的数据,然后从那里下载这些数据
现在我必须使用 Apache Nutch 获取该数据,但不知道如何。
此文件为warc 文件格式。
nutch - 如何将 Nutch 2.3 数据转储到 WARC 文件中?
我需要将 Nutch 2.3 中的数据转储到 WARC 文件中。但是,我找不到必要的模块。Nutch 1.x 具有这种能力。我想知道正确的方法。
python - 无法从从普通爬网爬取的 warc 文件中找到 url
我已经从普通爬取中爬取了数据,我想找出每条记录对应的 url。
这会输出一个空列表。我指的是以下链接 https://dmorgan.info/posts/common-crawl-python/。我们是得到与每条记录相对应的目标 uri,还是只为一个 warc 文件路径获取一个目标 uri?
python-requests - requests.get() 不抓取给定warc路径的整个常见抓取记录
我已经按照此链接中的说明实施了https://dmorgan.info/posts/common-crawl-python/ 。但是,与本文所述不同,我想抓取整个数据而不是部分数据。所以,在这个代码块中,
我做了以下更改:
此代码块增加了给定 warc 路径的记录数,但它不会爬取全部记录数。我找不到相同的可能原因。任何帮助,将不胜感激。
apache-spark - 将从 Common Crawl 下载的 warc.gz 文件转换为 RDD
我已经从 common crawl 下载了一个warc.gz
文件,我必须使用 spark 处理它。如何将文件转换为 RDD?sc.textFile("filepath")
似乎没有帮助。打印时rdd.take(1)
,它给了我[u'WARC/1.0']
,而它应该给了我完整的记录。如何将文件转换为可处理的 rdd?谢谢!
python-2.7 - 常用爬网关键字查找
我想查找具有特定关键字的所有网站的列表。例如,如果我搜索关键字“体育”或“足球”,则只需从常见的爬网中提取相关的网站 URL、标题、描述和图像.warc 文件。目前我可以很好地阅读带有以下代码的warc文件。
但它正在获取指定 warc 文件中的所有 url。我只需要与“体育”或“足球”匹配的相关网址。如何在 warc 文件中搜索该关键字?请帮助我,因为我是普通爬行的新手。我也检查了很多帖子,但没有一个成功。
如果他们有,我需要抓取文章图像,我怎样才能将它作为 commoncrawl 来保存整个网页。?
python - 根据 url 从 WARC 文件中检索记录
我必须从基于 Target-URI 的 *.warc.gz 文件中检索记录。文档说这需要创建外部 CDXJ 索引文件。
我尝试以 as 打开文件gzip.open()
并执行 a seek(offset)
,但查找操作需要相当长的时间(秒)。
有没有其他正确的方法来检索记录。
编辑:我正在使用warc python库,他们似乎没有在warc文件上提供直接的 f.seek() 。