问题标签 [common-crawl]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1433 浏览

dataset - 通过 http 将 AWS Common Crawl 的小样本下载到本地机器

我有兴趣下载 AWS Common Crawl 的一小部分的原始文本,即 10 的兆顶部,作为信息检索测试的语料库。

Common Crawl 页面建议我需要一个 S3 帐户和/或 Java 程序来访问它,然后我正在寻找筛选 100 Gb 的数据,而我只需要几十兆。

这里有一些代码,但它需要一个 S3 帐户和访问权限(尽管我确实喜欢 Python)。

有没有一种方法可以形成一个 http(s) URL,让我得到一个很小的横截面来满足我的目的?我相信我查看了一个页面,该页面建议了一种使用日、小时、分钟来构建目录的方法,但我似乎无法再次找到该页面。

谢谢!

0 投票
2 回答
6850 浏览

c# - 在 c# 中解压缩 gz 文件:System.IO.InvalidDataException:'存档条目是使用不受支持的压缩方法压缩的。'

我已按照 Microsoft 推荐的方式解压缩 .gz 文件:

https://docs.microsoft.com/en-us/dotnet/api/system.io.compression.gzipstream?view=netcore-3.1

我正在尝试从 CommonCrawl 下载和解析文件。我可以成功下载它们,并用 7-zip 解压缩它们

但是,在 c# 中,我得到:

System.IO.InvalidDataException:“存档条目是使用不受支持的压缩方法压缩的。”

该文件来自那里:

https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2020-16/segments/1585370490497.6/wet/CC-MAIN-20200328074047-20200328104047-00010.warc.wet.gz

有谁知道是什么问题?我需要一个特殊的图书馆吗?

0 投票
0 回答
157 浏览

apache-spark - Common Crawl:pyspark,无法使用

作为实习的一部分,我必须下载 Hadoop 和 Spark,并在 Common Crawl 的一些数据上对其进行测试。我尝试按照此页面的步骤https://github.com/commoncrawl/cc-pyspark#get-sample-data(我在我的计算机上安装 Spark 3.0.0)但是当我在我的计算机上尝试它时(我使用Ubuntu)我有很多错误,它似乎不起作用。
特别是,当我执行程序“serverur_count.py”时,我有很多行是这样写的: Failed to open /home/root/CommonCrawl/... 并且程序突然以书面形式结束:.MapOutputTrackerMasterEndpoint 停止。你知道如何纠正这个吗?(这是我第一次使用这些软件)对不起我的英语并提前感谢您的回复

0 投票
1 回答
286 浏览

python - newsplease commoncrawl.py 文件中的异常

我正在使用从https://github.com/fhamborg/news-please克隆的 newsplease 库。我想使用 newsplease 从 commoncrawl 新闻数据集中获取新闻文章。我正在按照此处的说明运行 commoncrawl.py 文件。我使用了以下命令-

在执行以下命令时,我收到以下错误 -

这里有什么错误我该如何解决这个问题。

https://github.com/fhamborg/news-please表示采用 newsplease/examples/commoncrawl.py 中的配置部分。这是什么意思 ?
我已经从这个文件中复制了配置并粘贴到 了newsplease/config目录中的config.cfg中。这是他们指示的吗?或者我在这里犯了一个错误。

我正在使用python 3.6。我的机器上只安装了一个 python。

0 投票
1 回答
172 浏览

amazon-web-services - Common Crawl S3 存储桶所需的 AWS 凭证

我正在尝试访问 Common Crawl 新闻 S3 存储桶,但我不断收到“致命错误:无法找到凭据”消息。关于如何解决这个问题的任何建议?据我所知,Common Crawl 甚至不需要凭据?

0 投票
1 回答
67 浏览

java - 为什么我的 Apache Nutch warc 和 commoncrawldump 在爬网后失败?

我已经使用 Nutch 成功爬取了一个网站,现在我想从结果中创建一个 warc。但是,运行 warc 和 commoncrawldump 命令都会失败。此外,bin/nutch dump -segement .... 在同一段文件夹上运行成功。

我正在使用 nutch v-1.17 并运行:

hadoop.log 的错误是ERROR tools.CommonCrawlDataDumper - No segment directories found in my/path/ 尽管刚刚在那里进行了爬网。

0 投票
0 回答
129 浏览

python - 将 pyspark CommonCrawl 存储库部署到 EMR

我正在尝试从我的 EMR 集群中托管在 S3 上的公共 CommonCrawl 数据中提取 WET 文件。为此,CommonCrawl 有一个cc-pyspark 存储库,他们在其中提供示例和说明,但是,我不理解使事情顺利进行的说明。如何将此存储库部署到我的集群?这应该是我的引导脚本的一部分吗?

最终目标是通过 spark 作业处理 WET 文件中的文本。到目前为止,我一直在使用托管笔记本尝试使用 boto3 下载 WET 文件,但没有成功。

这是我用来引导 EMR 和其他 python 包的代码。

0 投票
1 回答
272 浏览

common-crawl - 如何从 CommonCrawl 检索页面的 HTML?

假设我有:

  • CC*.warc 文件的链接(以及文件本身,如果有帮助的话);
  • 抵消; 和
  • 长度

如何获取该页面的 HTML 内容?

感谢您的时间和关注。

0 投票
1 回答
155 浏览

python - 在 python 中从 s3 流式传输 gzip 文件

嗨,我正在开发一个有趣的项目,使用常见的爬网数据我有一个从这里开始的最新爬网 warc 文件路径的子集

所以基本上我有一个像https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2020-45/segments/1603107863364.0/warc/CC-MAIN-20201019145901-20201019175901-00000.warc.gz这样的网址(warc 路径中的第一个 url),我在请求中流式传输,如下所示:

从Python解压缩字节流的stream_gzip_decompress ?

前三个块似乎可以很好地解压并打印出来,然后脚本就永远挂起(我只等了大约 8 分钟。它似乎仍在运行这些块,但被抓住了,if rv:所以不会产生任何东西,但似乎仍然以字节为单位。

0 投票
2 回答
423 浏览

python - 如何从 Common Crawl 获取网页文本?

使用普通爬网,有没有一种方法可以从特定域(例如,wisc.edu)的所有页面下载原始文本?我只对用于 NLP 目的的文本感兴趣,例如主题建模。