问题标签 [common-crawl]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
285 浏览

web-scraping - 用于查询 CommonCrawl 以填充数字对象标识符 (DOI) 数据库的 Java API

我正在尝试创建一个在 Internet 上找到的数字对象标识符 (DOI) 数据库。

通过手动手动搜索CommonCrawl索引服务器,我获得了一些有希望的结果。

但是我希望开发一个程序化的解决方案。

这可能导致我的过程只需要读取索引文件而不是底层的 WARC 数据文件。

我希望自动化的手动步骤是:-

1)。对于每个CommonCrawl当前可用的索引集合:

2)。我搜索...“ Search a url in this collection: (Wildcards -- Prefix: http://example.com/* Domain: *.example.com)”例如link.springer.com/*

3)。这将返回近 6MB 的 json 数据,其中包含大约 22K 的唯一 DOI。

如何浏览所有可用CommonCrawl索引而不是搜索特定 URL?

通过阅读 CommonCrawl 的 API 文档,我看不到如何浏览所有索引以提取所有域的所有 DOI。

更新

我找到了这个示例 java 代码https://github.com/Smerity/cc-warc-examples/blob/master/src/org/commoncrawl/examples/S3ReaderTest.java

这显示了如何访问常见的爬网数据集。

但是,当我运行它时,我收到了这个异常

事实上,我尝试读取的每个文件都会导致相同的错误。这是为什么?

他们的数据集正确的常见抓取 uri 是什么?

0 投票
0 回答
171 浏览

python-requests - requests.get() 不抓取给定warc路径的整个常见抓取记录

我已经按照此链接中的说明实施了https://dmorgan.info/posts/common-crawl-python/ 。但是,与本文所述不同,我想抓取整个数据而不是部分数据。所以,在这个代码块中,

我做了以下更改:

此代码块增加了给定 warc 路径的记录数,但它不会爬取全部记录数。我找不到相同的可能原因。任何帮助,将不胜感激。

0 投票
1 回答
556 浏览

apache-spark - 将从 Common Crawl 下载的 warc.gz 文件转换为 RDD

我已经从 common crawl 下载了一个warc.gz文件,我必须使用 spark 处理它。如何将文件转换为 RDD?sc.textFile("filepath")似乎没有帮助。打印时rdd.take(1),它给了我[u'WARC/1.0'],而它应该给了我完整的记录。如何将文件转换为可处理的 rdd?谢谢!

0 投票
2 回答
244 浏览

common-crawl - 普通爬取的warc.gz文件的两条记录之间的分隔符

我想解析从普通爬网下载的 warc.gz 文件。我有一个要求,我必须手动解析新闻 warc.gz 文件。两条记录之间的分隔符是什么?

0 投票
2 回答
929 浏览

common-crawl - 从 Common Crawl 索引服务器获取 WAT 存档子集的偏移量和长度

我想从 Amazon S3 下载 WAT 存档段的子集。

背景:

在http://index.commoncrawl.org上搜索 Common Crawl 索引会产生包含 AWS S3 上 WARC 文件位置信息的结果。例如,搜索url=www.celebuzz.com/2017-01-04/*&output=json会产生 JSON 格式的结果,其中之一是

{ "urlkey":"com,celebuzz)/2017-01-04/watch-james-corden-george-michael-tribute", ... "filename":"crawl-data/CC-MAIN-2017-34/segments/1502886104631.25/warc/CC-MAIN-20170818082911-20170818102911-00023.warc.gz", ... "offset":"504411150", "length":"14169", ... }

filename条目指示哪个存档段包含此特定页面的 WARC 文件。这个存档文件很大;但幸运的是,该条目还包含offsetlength字段,可用于请求包含存档段相关子集的字节范围(例如,参见本要点中的第 22-30 行)。

我的问题:

给定 WARC 文件段的位置,我知道如何构造相应 WAT 存档段的名称(例如,参见本教程)。我只需要 WAT 文件的一个子集,所以我想请求一个字节范围。但是如何找到 WAT 存档段的相应偏移量和长度?

我已经检查了Common Crawl 索引服务器的API 文档,但我不清楚这是否可行。但如果是这样,我会发布这个问题。

0 投票
1 回答
880 浏览

common-crawl - 常见爬取——获取WARC文件

我想使用普通爬网检索网页,但我迷路了。

我想获取 www.example.com 的 warc 文件。我看到这个链接(http://index.commoncrawl.org/CC-MAIN-2017-34-index?url=https%3A%2F%2Fwww.example.com&output=json)产生以下json。

{“urlkey”:“com,example)/”,“timestamp”:“20170820000102”,“mime”:“text/html”,“digest”:“B2LTWWPUOYAH7UIPQ7ZUPQ4VMBSVC36A”,“文件名”:“crawl-data/CC- MAIN-2017-34/segments/1502886105955.66/robotstxt/CC-MAIN-20170819235943-20170820015943-00613.warc.gz”,“mime-detected”:“text/html”,“status”:“200”,“offset” :“1109728”,“长度”:“1166”,“网址”:“ http://www.example.com ”}

有人可以指出我如何使用这些 json 元素来检索 HTML 的正确方向。

感谢您帮助菜鸟!

0 投票
1 回答
864 浏览

python-2.7 - 常用爬网关键字查找

我想查找具有特定关键字的所有网站的列表。例如,如果我搜索关键字“体育”或“足球”,则只需从常见的爬网中提取相关的网站 URL、标题、描述和图像.warc 文件。目前我可以很好地阅读带有以下代码的warc文件。

但它正在获取指定 warc 文件中的所有 url。我只需要与“体育”或“足球”匹配的相关网址。如何在 warc 文件中搜索该关键字?请帮助我,因为我是普通爬行的新手。我也检查了很多帖子,但没有一个成功。

如果他们有,我需要抓取文章图像,我怎样才能将它作为 commoncrawl 来保存整个网页。?

0 投票
0 回答
184 浏览

python - python没有凭证错误,常见数据爬取

我正在尝试基于 https://engineeringblog.yelp.com/2015/03/analyzing-the-web-for-the-price-of-a-sandwich.html的示例常见数据爬取示例

我根据说明在本地 Windows PC 中运行以下命令。

但我收到以下错误。

我是新手,我需要设置任何凭据吗?如果是,如何在本地 PC 中进行设置。

任何帮助深表感谢。

0 投票
0 回答
438 浏览

python - 访问 amazon s3 被拒绝访问 - 常见数据爬网

我正在尝试基于https://engineeringblog.yelp.com/2015/03/analyzing-the-web-for-the-price-of-a-sandwich.html的示例常见数据爬取示例

我根据说明在本地 Windows PC 中运行以下命令。

但我收到以下错误。

有人可以帮我解决这个问题。

0 投票
1 回答
802 浏览

web-crawler - 如何使用常用爬网在网络上搜索某个关键字查询?

Common Crawl 是一个非盈利的第三方网络搜索引擎。http://commoncrawl.org

我看到了用于搜索给定域的 Common Crawl 的 API。

如何搜索给定搜索词的常见爬网?