问题标签 [common-crawl]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

66 问题

0 投票

1 回答

627 浏览

java - 如何从映射器登录？（hadoop 与 commoncrawl）

我正在使用他们的“ Mapreduce for the Masses ”教程中的 commoncrawl 示例代码。我正在尝试对映射器进行修改，并且希望能够将字符串记录到某些输出中。我正在考虑设置一些 noSQL 数据库并将我的输出推送给它，但这并不是一个好的解决方案。从java进行这种日志记录的标准方法是什么？

java hadoop mapreduce nosql common-crawl

2012-12-29T22:53:26.903

0 投票

4 回答

8431 浏览

amazon-web-services - 访问通用爬网 AWS 公共数据集

我需要浏览和下载常见抓取的公共数据集的子集。此页面提到了数据的托管位置。
如何浏览并可能下载托管在 s3://aws-publicdatasets/common-crawl/crawl-002/ 上的常见爬网数据？

amazon-web-services amazon-s3 amazon-ec2 amazon common-crawl

2013-05-20T12:27:38.143

0 投票

0 回答

128 浏览

hadoop - 将 HDFS 格式的文件从 S3 复制到本地

我们正在使用 Amazon EMR 和 commoncrawl 来执行爬取。EMR 以类似二进制的格式将输出写入 Amazon S3。我们想以原始文本格式将其复制到本地。

我们怎样才能做到这一点？最好的方法是什么？

通常我们可以使用 hadoop copyToLocal 但我们不能直接访问 hadoop 并且数据在 S3 上。

hadoop amazon-s3 hdfs amazon-emr common-crawl

2013-09-29T22:37:19.020

0 投票

2 回答

317 浏览

php - 读取前 100 行

请看下面的代码：

wcmapper.php（hadoop 流作业的映射器）

wcreducer.php（示例 hadoop 作业的减速器脚本）

此代码适用于在 commoncrawl 数据集上使用 PHP 的 Wordcount 流式作业。

在这里，这些代码读取整个输入。这不是我需要的，我需要读取前 100 行并将它们写入文本文件。我是 Hadoop、CommonCrawl 和 PHP 的初学者。那么，我该怎么做呢？

请帮忙。

php web-services hadoop web-crawler common-crawl

2013-12-31T09:05:01.970

0 投票

1 回答

59 浏览

java - 上述导入语句的 Jar 文件是必需的

我正在使用导入语句出现错误，您能否建议我上述导入的 jar 文件

java common-crawl

2014-05-28T09:55:55.810

0 投票

1 回答

2055 浏览

amazon-ec2 - 如何在 Spark 中打开 Commoncrawl.org WARC.GZ S3 数据

我想从 spark shell 访问 Amazon 公共数据集存储库中的 commoncrawl 文件。这些文件采用 WARC.GZ 格式。

我现在将实现一个函数来读取 mapPartitions 函数中的 WARC.GZ 格式。这是一个很好的方法吗？我问是因为我对 Spark 平台相当陌生，并且想使用一小部分 commoncrawl 语料库来实现一个小型演示应用程序。我看到 mapPartitions 在这里的一个线程中使用。

我第一次尝试，我尝试使用 sc.textFile("s3://....").take(1) 直接从我自己的计算机打开文件，这导致访问被拒绝错误。S3 amazon 公共存储库文件是否只能从 EC2 实例访问？

amazon-ec2 amazon-s3 apache-spark common-crawl

2014-11-16T14:10:34.053

0 投票

1 回答

276 浏览

download - 如何下载 Amazon CommonCrawel 的子集（只需要文本（WET 文件？））

出于研究目的，我想要一大组（~100K）网页，尽管我只对它们的文本感兴趣。我计划将它们用于 gensim LDA 主题模型。CommonCrawler 似乎是一个不错的起点，但我不知道该怎么做。有人可以指出如何下载 100K 文本文件或如何访问它们（如果它比下载它们更容易）？

download lda gensim common-crawl

2014-12-17T20:09:12.643

0 投票

0 回答

199 浏览

java - 将 commoncrawl 关键字搜索脚本转换为 Hadoop EMR 脚本

我已经构建了一个从 EC2 运行的关键字搜索脚本，并将输出成功保存在 s3 上。但它是单线程的，这就是为什么它很慢。我想使用自定义 jar在 EMR 上运行它。有人可以将其转换为 Hadoop 脚本，以便我可以在 EMR 上运行它。

我是hadoop的新手。我尝试了以下回购但没有运气。

https://github.com/commoncrawl/cc-warc-examples

https://github.com/commoncrawl/example-warc-java

然后我混合这两个 repos 来制作以下脚本。

java hadoop amazon-s3 amazon-emr common-crawl

2015-05-20T10:36:33.100

0 投票

0 回答

978 浏览

amazon-s3 - 在所有 Common Crawl WARC 文件中搜索一个词

我想从常见的爬网中搜索所有 WARC 文件（近 36K 的 Warc 文件）中的一个单词（例如公司名称），并在其 HTML 源内容中获取具有该公司名称的所有 url。

我想将这些 WARC 文件保留在 S3 本身中。只是我需要这些 WARC 文件中的 url 作为结果。

是否有任何可用的模块或预构建包？

我可以使用 Solr 索引吗？（但它可能需要更多内存）

提前致谢。

amazon-s3 solr common-crawl warc large-data

2015-06-23T11:45:42.873

0 投票

1 回答

288 浏览

common-crawl - 从 Web Data Commons 获取给定网站数据的方法？

我正在 Web Data Commons 转储中尝试有趣的数据。在我的机器上 grep 需要一天的时间（并行）。是否有涵盖哪些网站的索引以及从这些网站中专门提取的能力？

common-crawl

2015-06-27T22:14:39.320

1 2 3 4 5 6 7 8 9 10