问题标签 [common-crawl]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 如何从映射器登录?(hadoop 与 commoncrawl)
我正在使用他们的“ Mapreduce for the Masses ”教程中的 commoncrawl 示例代码。我正在尝试对映射器进行修改,并且希望能够将字符串记录到某些输出中。我正在考虑设置一些 noSQL 数据库并将我的输出推送给它,但这并不是一个好的解决方案。从java进行这种日志记录的标准方法是什么?
amazon-web-services - 访问通用爬网 AWS 公共数据集
我需要浏览和下载常见抓取的公共数据集的子集。此页面提到了数据的托管位置。
如何浏览并可能下载托管在 s3://aws-publicdatasets/common-crawl/crawl-002/ 上的常见爬网数据?
hadoop - 将 HDFS 格式的文件从 S3 复制到本地
我们正在使用 Amazon EMR 和 commoncrawl 来执行爬取。EMR 以类似二进制的格式将输出写入 Amazon S3。我们想以原始文本格式将其复制到本地。
我们怎样才能做到这一点?最好的方法是什么?
通常我们可以使用 hadoop copyToLocal 但我们不能直接访问 hadoop 并且数据在 S3 上。
php - 读取前 100 行
请看下面的代码:
wcmapper.php(hadoop 流作业的映射器)
wcreducer.php(示例 hadoop 作业的减速器脚本)
此代码适用于在 commoncrawl 数据集上使用 PHP 的 Wordcount 流式作业。
在这里,这些代码读取整个输入。这不是我需要的,我需要读取前 100 行并将它们写入文本文件。我是 Hadoop、CommonCrawl 和 PHP 的初学者。那么,我该怎么做呢?
请帮忙。
java - 上述导入语句的 Jar 文件是必需的
我正在使用导入语句出现错误,您能否建议我上述导入的 jar 文件
amazon-ec2 - 如何在 Spark 中打开 Commoncrawl.org WARC.GZ S3 数据
我想从 spark shell 访问 Amazon 公共数据集存储库中的 commoncrawl 文件。这些文件采用 WARC.GZ 格式。
我现在将实现一个函数来读取 mapPartitions 函数中的 WARC.GZ 格式。这是一个很好的方法吗?我问是因为我对 Spark 平台相当陌生,并且想使用一小部分 commoncrawl 语料库来实现一个小型演示应用程序。我看到 mapPartitions 在这里的一个线程中使用。
我第一次尝试,我尝试使用 sc.textFile("s3://....").take(1) 直接从我自己的计算机打开文件,这导致访问被拒绝错误。S3 amazon 公共存储库文件是否只能从 EC2 实例访问?
download - 如何下载 Amazon CommonCrawel 的子集(只需要文本(WET 文件?))
出于研究目的,我想要一大组(~100K)网页,尽管我只对它们的文本感兴趣。我计划将它们用于 gensim LDA 主题模型。CommonCrawler 似乎是一个不错的起点,但我不知道该怎么做。有人可以指出如何下载 100K 文本文件或如何访问它们(如果它比下载它们更容易)?
java - 将 commoncrawl 关键字搜索脚本转换为 Hadoop EMR 脚本
我已经构建了一个从 EC2 运行的关键字搜索脚本,并将输出成功保存在 s3 上。但它是单线程的,这就是为什么它很慢。我想使用自定义 jar在 EMR 上运行它。有人可以将其转换为 Hadoop 脚本,以便我可以在 EMR 上运行它。
我是hadoop的新手。我尝试了以下回购但没有运气。
https://github.com/commoncrawl/cc-warc-examples
https://github.com/commoncrawl/example-warc-java
然后我混合这两个 repos 来制作以下脚本。
amazon-s3 - 在所有 Common Crawl WARC 文件中搜索一个词
我想从常见的爬网中搜索所有 WARC 文件(近 36K 的 Warc 文件)中的一个单词(例如公司名称),并在其 HTML 源内容中获取具有该公司名称的所有 url。
我想将这些 WARC 文件保留在 S3 本身中。只是我需要这些 WARC 文件中的 url 作为结果。
是否有任何可用的模块或预构建包?
我可以使用 Solr 索引吗?(但它可能需要更多内存)
提前致谢。
common-crawl - 从 Web Data Commons 获取给定网站数据的方法?
我正在 Web Data Commons 转储中尝试有趣的数据。在我的机器上 grep 需要一天的时间(并行)。是否有涵盖哪些网站的索引以及从这些网站中专门提取的能力?