“common-crawl”的相关标签问题

0 投票

2 回答

285 浏览

web-scraping - 用于查询 CommonCrawl 以填充数字对象标识符 (DOI) 数据库的 Java API

我正在尝试创建一个在 Internet 上找到的数字对象标识符 (DOI) 数据库。

通过手动手动搜索CommonCrawl索引服务器，我获得了一些有希望的结果。

但是我希望开发一个程序化的解决方案。

这可能导致我的过程只需要读取索引文件而不是底层的 WARC 数据文件。

我希望自动化的手动步骤是：-

1）。对于每个CommonCrawl当前可用的索引集合：

2）。我搜索...“ Search a url in this collection: (Wildcards -- Prefix: http://example.com/* Domain: *.example.com)”例如link.springer.com/*

3）。这将返回近 6MB 的 json 数据，其中包含大约 22K 的唯一 DOI。

如何浏览所有可用CommonCrawl索引而不是搜索特定 URL？

通过阅读 CommonCrawl 的 API 文档，我看不到如何浏览所有索引以提取所有域的所有 DOI。

更新

我找到了这个示例 java 代码https://github.com/Smerity/cc-warc-examples/blob/master/src/org/commoncrawl/examples/S3ReaderTest.java

这显示了如何访问常见的爬网数据集。

但是，当我运行它时，我收到了这个异常

事实上，我尝试读取的每个文件都会导致相同的错误。这是为什么？

他们的数据集正确的常见抓取 uri 是什么？

web-scraping common-crawl

2017-07-27T10:18:51.807

0 投票

0 回答

171 浏览

python-requests - requests.get() 不抓取给定warc路径的整个常见抓取记录

我已经按照此链接中的说明实施了https://dmorgan.info/posts/common-crawl-python/ 。但是，与本文所述不同，我想抓取整个数据而不是部分数据。所以，在这个代码块中，

我做了以下更改：

此代码块增加了给定 warc 路径的记录数，但它不会爬取全部记录数。我找不到相同的可能原因。任何帮助，将不胜感激。

2017-08-10T04:58:50.367

0 投票

1 回答

556 浏览

apache-spark - 将从 Common Crawl 下载的 warc.gz 文件转换为 RDD

我已经从 common crawl 下载了一个warc.gz文件，我必须使用 spark 处理它。如何将文件转换为 RDD？sc.textFile("filepath")似乎没有帮助。打印时rdd.take(1)，它给了我[u'WARC/1.0']，而它应该给了我完整的记录。如何将文件转换为可处理的 rdd？谢谢！

apache-spark pyspark rdd common-crawl warc

2017-08-23T12:33:40.670

0 投票

2 回答

244 浏览

common-crawl - 普通爬取的warc.gz文件的两条记录之间的分隔符

我想解析从普通爬网下载的 warc.gz 文件。我有一个要求，我必须手动解析新闻 warc.gz 文件。两条记录之间的分隔符是什么？

common-crawl

2017-08-28T05:09:15.683

0 投票

2 回答

929 浏览

common-crawl - 从 Common Crawl 索引服务器获取 WAT 存档子集的偏移量和长度

我想从 Amazon S3 下载 WAT 存档段的子集。

背景：

在http://index.commoncrawl.org上搜索 Common Crawl 索引会产生包含 AWS S3 上 WARC 文件位置信息的结果。例如，搜索url=www.celebuzz.com/2017-01-04/*&output=json会产生 JSON 格式的结果，其中之一是

{ "urlkey":"com,celebuzz)/2017-01-04/watch-james-corden-george-michael-tribute", ... "filename":"crawl-data/CC-MAIN-2017-34/segments/1502886104631.25/warc/CC-MAIN-20170818082911-20170818102911-00023.warc.gz", ... "offset":"504411150", "length":"14169", ... }

该filename条目指示哪个存档段包含此特定页面的 WARC 文件。这个存档文件很大；但幸运的是，该条目还包含offset和length字段，可用于请求包含存档段相关子集的字节范围（例如，参见本要点中的第 22-30 行）。

我的问题：

给定 WARC 文件段的位置，我知道如何构造相应 WAT 存档段的名称（例如，参见本教程）。我只需要 WAT 文件的一个子集，所以我想请求一个字节范围。但是如何找到 WAT 存档段的相应偏移量和长度？

我已经检查了Common Crawl 索引服务器的API 文档，但我不清楚这是否可行。但如果是这样，我会发布这个问题。

common-crawl

2017-08-28T13:43:40.207

0 投票

1 回答

880 浏览

common-crawl - 常见爬取——获取WARC文件

我想使用普通爬网检索网页，但我迷路了。

我想获取 www.example.com 的 warc 文件。我看到这个链接（http://index.commoncrawl.org/CC-MAIN-2017-34-index?url=https%3A%2F%2Fwww.example.com&output=json）产生以下json。

{“urlkey”：“com,example)/”，“timestamp”：“20170820000102”，“mime”：“text/html”，“digest”：“B2LTWWPUOYAH7UIPQ7ZUPQ4VMBSVC36A”，“文件名”：“crawl-data/CC- MAIN-2017-34/segments/1502886105955.66/robotstxt/CC-MAIN-20170819235943-20170820015943-00613.warc.gz”，“mime-detected”：“text/html”，“status”：“200”，“offset” ：“1109728”，“长度”：“1166”，“网址”：“ http://www.example.com ”}

有人可以指出我如何使用这些 json 元素来检索 HTML 的正确方向。

感谢您帮助菜鸟！

common-crawl

2017-09-19T18:41:21.617

0 投票

1 回答

864 浏览

python-2.7 - 常用爬网关键字查找

我想查找具有特定关键字的所有网站的列表。例如，如果我搜索关键字“体育”或“足球”，则只需从常见的爬网中提取相关的网站 URL、标题、描述和图像.warc 文件。目前我可以很好地阅读带有以下代码的warc文件。

但它正在获取指定 warc 文件中的所有 url。我只需要与“体育”或“足球”匹配的相关网址。如何在 warc 文件中搜索该关键字？请帮助我，因为我是普通爬行的新手。我也检查了很多帖子，但没有一个成功。

如果他们有，我需要抓取文章图像，我怎样才能将它作为 commoncrawl 来保存整个网页。？

python-2.7 python-3.x elasticsearch common-crawl warc

2017-10-02T08:10:02.243

0 投票

0 回答

184 浏览

python - python没有凭证错误，常见数据爬取

我正在尝试基于 https://engineeringblog.yelp.com/2015/03/analyzing-the-web-for-the-price-of-a-sandwich.html的示例常见数据爬取示例

我根据说明在本地 Windows PC 中运行以下命令。

但我收到以下错误。

我是新手，我需要设置任何凭据吗？如果是，如何在本地 PC 中进行设置。

任何帮助深表感谢。

python amazon-s3 boto common-crawl

2017-11-26T22:48:19.747

0 投票

0 回答

438 浏览

python - 访问 amazon s3 被拒绝访问 - 常见数据爬网

我正在尝试基于https://engineeringblog.yelp.com/2015/03/analyzing-the-web-for-the-price-of-a-sandwich.html的示例常见数据爬取示例

我根据说明在本地 Windows PC 中运行以下命令。

但我收到以下错误。

有人可以帮我解决这个问题。

python amazon-s3 boto3 common-crawl

2017-11-27T17:28:06.330

0 投票

1 回答

802 浏览

web-crawler - 如何使用常用爬网在网络上搜索某个关键字查询？

Common Crawl 是一个非盈利的第三方网络搜索引擎。http://commoncrawl.org

我看到了用于搜索给定域的 Common Crawl 的 API。

如何搜索给定搜索词的常见爬网？

web-crawler common-crawl

2017-12-11T20:54:41.343

问题标签 [common-crawl]

Reference