问题标签 [common-crawl]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 下载通用爬取完整索引文件
下面项目中使用的常用爬取索引文件
https://github.com/trivio/common_crawl_index/blob/master/bin/remote_copy
mmap = BotoMap(s3_anon, src_bucket, '/common-crawl/projects/url-index/url-index.1356128792'
)
是部分的。
我希望在我的项目中使用完整的索引文件(APRIL-2015 抓取数据),该项目使用上述项目作为基础。
我在哪里可以下载整个索引文件?
在这里,汤姆莫里斯指出
索引服务使用的索引文件也可供下载。
java - 如何使用 Java 从 AWS 读取 Common Crawl 的所有数据?
我对 Hadoop 和 MapReduce 编程完全陌生,我正在尝试使用 Common Crawl 的数据编写我的第一个 MapReduce 程序。
我想从 AWS 读取 2015 年 4 月的所有数据。例如,如果我想在命令行中下载 2015 年 4 月的所有数据,我会这样做:
s3cmd 获取 s3://aws-publicdatasets/common-crawl/crawl-data/CC-MAIN-2015-18/segments/1429246633512.41/wat/*.warc.wat.gz
此命令行工作,但我不想下载 2015 年 4 月的所有数据,我只想读取所有“warc.wat.gz”文件(以便分析数据)。
我尝试创建我的工作,看起来像这样:
但我有这个错误:
线程“main”java.lang.IllegalArgumentException 中的异常:AWS 访问密钥 ID 和秘密访问密钥必须分别指定为 s3n URL 的用户名或密码,或者通过设置 fs.s3n.awsAccessKeyId 或 fs.s3n。 awsSecretAccessKey 属性(分别)。
我怎样才能解决我的问题?提前致谢,
python - 使用 mrjob python 将通用爬网位置作为 Amazon EMR 的输入
自从我开始使用 mrjob 以来只有几天,我已经尝试了某些低级和中等级别的任务。现在我被困在[now onwards will be know as CC]
使用 python mrjob 将 Common crawl location 作为 emr 的输入
我的配置文件如下所示:
Big thing small :I am trying to get the number of words in a web page of a site
Big thing big: Is my code below
我的代码:
到目前为止一切都很好,但是当我尝试运行它时。
命令:
错误:
我认为这是因为我的配置文件中的区域并将其删除但我收到一个新错误
我的新配置文件:
我收到以下错误 SSH 错误:
谢谢 ,
regex - 修复 CommonCrawl 文本中损坏的标点符号
我正在处理来自 Common Crawl(WET
格式)的文本,据我所见,有很多损坏的标点符号 - 很可能是在从原始数据中删除换行符时造成的。
例如,在 中This Massive Rally?The 52
,问号和The
应该用空格隔开。我尝试使用以下正则表达式(在 Java 中)解决此问题:
虽然它可以正确处理大多数情况,但它会在不应该的地方添加空格,例如U.S.
becomeU. S.
或www.HiringJobTweets.com
become www. HiringJobTweets.com
。
有没有办法在避免不良副作用的同时解决问题?
python - 如何从 warc.wet.gz 中提取每个有效载荷?
我一直在尝试从 Common Crawl 的湿文件中提取文本数据。我目前正在使用 Internet Archieve https://github.com/internetarchive/warc的 warc 解析器
但是这种方法提供的数据不到有效载荷中的一半。有没有其他更好的方法可以提供文件中每个有效负载中的所有数据。
python - MRJob 确定是否运行内联、本地、emr 或 hadoop
我正在使用几年前使用 MRJob 的带有 EMR 的 commoncrawl 数据集构建一些旧代码。该代码使用以下 MRJob 子类映射器函数来确定是在本地运行还是在 emr 上运行:
这似乎从未奏效或不再奏效, self.options.runner 没有传递给任务,因此始终设置为默认值'inline'
. 问题是,有没有办法使用当前版本的 MRJob (v0.5.0) 确定代码是在本地运行还是在 emr 上运行。
amazon-web-services - Common Crawl AWS 公共数据集传输成本
我实际上正在处理 Common Crawl 数据集,我想知道将数据从原始 S3 存储桶传输到我的 EC2 集群的成本?是收费还是完全免费?
search-engine - CommonCrawl:如何找到特定的网页?
我正在使用 CommonCrawl 来恢复我应该实现但没有实现的页面。
据我了解,Common Crawl Index 提供对 Common Crawl 存储的所有 URL 的访问。因此,如果实现了 URL,它应该会给我一个答案。
一个简单的脚本会从可用的爬网中下载所有索引:
之后我有 112mb 的数据,只需 grep:
页面不存在。我错过了什么吗?该页面于 2006 年发布并于 2016 年 6 月删除。所以我认为 CommonCrawl 应该已经实现了它们?
更新:感谢塞巴斯蒂安,留下两个链接......两个网址是:
- http://www.thesun.co.uk/sol/homepage/news/50569/Locals-tell-of-terror-shock.html
- http://www.thesun.co.uk/sol/homepage/news/54032/Sir-Ians-raid-apology.html
他们甚至提出了一个“URL 搜索工具”,它的回答是 502 - Bad Gateway...
war - 如何归档和检索大型 HTML 数据集?
我是一个新生,我即将参加这个周末的比赛。问题在于归档和检索大型 HTML 数据集,我对此一无所知。我的朋友建议我使用网络存档和普通爬网。请向我建议一种将 HTML 数据集转换为网络存档的方法以及如何对它们进行索引。提前致谢。
common-crawl - 使用来自 commoncrawl.org 的 WARC 归档文件,其中包含来自给定域的所有文件
Commoncrawl 数据集按段分割。 如何提取公共爬网数据集的子集?我需要一个 WARC 存档文件(或多个存档文件),其中包含来自给定域(例如 example.com)的所有文件?
注意:common_crawl_index允许通过运行来做到这一点bin/remote_copy copy "com.ipc.www" --bucket commoncrawl_sample --key common_crawl/ipc_crawl
,但该项目已过时:它仅适用于 2012 数据集,并且不接受 WARC、WAT 或 WET 文件。
注意:此外, http: //index.commoncrawl.org/允许查找给定 url 前缀的段,但没有实用程序仅下载该页面,例如前面的remote_copy
命令。
PS:我知道我可以实施一个程序来做到这一点。在这里,我想问一下 common-crawl(或其他人)是否已经考虑并实现了这个功能。