问题标签 [common-crawl]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
627 浏览

java - 如何从映射器登录?(hadoop 与 commoncrawl)

我正在使用他们的“ Mapreduce for the Masses ”教程中的 commoncrawl 示例代码。我正在尝试对映射器进行修改,并且希望能够将字符串记录到某些输出中。我正在考虑设置一些 noSQL 数据库并将我的输出推送给它,但这并不是一个好的解决方案。从java进行这种日志记录的标准方法是什么?

0 投票
4 回答
8431 浏览

amazon-web-services - 访问通用爬网 AWS 公共数据集

我需要浏览和下载常见抓取的公共数据集的子集。页面提到了数据的托管位置。
如何浏览并可能下载托管在 s3://aws-publicdatasets/common-crawl/crawl-002/ 上的常见爬网数据?

0 投票
0 回答
128 浏览

hadoop - 将 HDFS 格式的文件从 S3 复制到本地

我们正在使用 Amazon EMR 和 commoncrawl 来执行爬取。EMR 以类似二进制的格式将输出写入 Amazon S3。我们想以原始文本格式将其复制到本地。

我们怎样才能做到这一点?最好的方法是什么?

通常我们可以使用 hadoop copyToLocal 但我们不能直接访问 hadoop 并且数据在 S3 上。

0 投票
2 回答
317 浏览

php - 读取前 100 行

请看下面的代码:

wcmapper.php(hadoop 流作业的映射器)

wcreducer.php(示例 hadoop 作业的减速器脚本)

此代码适用于在 commoncrawl 数据集上使用 PHP 的 Wordcount 流式作业

在这里,这些代码读取整个输入。这不是我需要的,我需要读取前 100 行并将它们写入文本文件。我是 Hadoop、CommonCrawl 和 PHP 的初学者。那么,我该怎么做呢?

请帮忙。

0 投票
1 回答
59 浏览

java - 上述导入语句的 Jar 文件是必需的

我正在使用导入语句出现错误,您能否建议我上述导入的 jar 文件

0 投票
1 回答
2055 浏览

amazon-ec2 - 如何在 Spark 中打开 Commoncrawl.org WARC.GZ S3 数据

我想从 spark shell 访问 Amazon 公共数据集存储库中的 commoncrawl 文件。这些文件采用 WARC.GZ 格式。

我现在将实现一个函数来读取 mapPartitions 函数中的 WARC.GZ 格式。这是一个很好的方法吗?我问是因为我对 Spark 平台相当陌生,并且想使用一小部分 commoncrawl 语料库来实现一个小型演示应用程序。我看到 mapPartitions 在这里的一个线程中使用。

我第一次尝试,我尝试使用 sc.textFile("s3://....").take(1) 直接从我自己的计算机打开文件,这导致访问被拒绝错误。S3 amazon 公共存储库文件是否只能从 EC2 实例访问?

0 投票
1 回答
276 浏览

download - 如何下载 Amazon CommonCrawel 的子集(只需要文本(WET 文件?))

出于研究目的,我想要一大组(~100K)网页,尽管我只对它们的文本感兴趣。我计划将它们用于 gensim LDA 主题模型。CommonCrawler 似乎是一个不错的起点,但我不知道该怎么做。有人可以指出如何下载 100K 文本文件或如何访问它们(如果它比下载它们更容易)?

0 投票
0 回答
199 浏览

java - 将 commoncrawl 关键字搜索脚本转换为 Hadoop EMR 脚本

我已经构建了一个从 EC2 运行的关键字搜索脚本,并将输出成功保存在 s3 上。但它是单线程的,这就是为什么它很慢。我想使用自定义 jar在 EMR 上运行它。有人可以将其转换为 Hadoop 脚本,以便我可以在 EMR 上运行它。

我是hadoop的新手。我尝试了以下回购但没有运气。

https://github.com/commoncrawl/cc-warc-examples

https://github.com/commoncrawl/example-warc-java

然后我混合这两个 repos 来制作以下脚本。

0 投票
0 回答
978 浏览

amazon-s3 - 在所有 Common Crawl WARC 文件中搜索一个词

我想从常见的爬网中搜索所有 WARC 文件(近 36K 的 Warc 文件)中的一个单词(例如公司名称),并在其 HTML 源内容中获取具有该公司名称的所有 url。

我想将这些 WARC 文件保留在 S3 本身中。只是我需要这些 WARC 文件中的 url 作为结果。

是否有任何可用的模块或预构建包?

我可以使用 Solr 索引吗?(但它可能需要更多内存)

提前致谢。

0 投票
1 回答
288 浏览

common-crawl - 从 Web Data Commons 获取给定网站数据的方法?

我正在 Web Data Commons 转储中尝试有趣的数据。在我的机器上 grep 需要一天的时间(并行)。是否有涵盖哪些网站的索引以及从这些网站中专门提取的能力?