问题标签 [common-crawl]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

66 问题

0 投票

1 回答

1433 浏览

dataset - 通过 http 将 AWS Common Crawl 的小样本下载到本地机器

我有兴趣下载 AWS Common Crawl 的一小部分的原始文本，即 10 的兆顶部，作为信息检索测试的语料库。

Common Crawl 页面建议我需要一个 S3 帐户和/或 Java 程序来访问它，然后我正在寻找筛选 100 Gb 的数据，而我只需要几十兆。

这里有一些代码，但它需要一个 S3 帐户和访问权限（尽管我确实喜欢 Python）。

有没有一种方法可以形成一个 http(s) URL，让我得到一个很小的横截面来满足我的目的？我相信我查看了一个页面，该页面建议了一种使用日、小时、分钟来构建目录的方法，但我似乎无法再次找到该页面。

谢谢！

2019-04-19T13:02:26.863

0 投票

2 回答

6850 浏览

c# - 在 c# 中解压缩 gz 文件：System.IO.InvalidDataException：'存档条目是使用不受支持的压缩方法压缩的。'

我已按照 Microsoft 推荐的方式解压缩 .gz 文件：

https://docs.microsoft.com/en-us/dotnet/api/system.io.compression.gzipstream?view=netcore-3.1

我正在尝试从 CommonCrawl 下载和解析文件。我可以成功下载它们，并用 7-zip 解压缩它们

但是，在 c# 中，我得到：

System.IO.InvalidDataException：“存档条目是使用不受支持的压缩方法压缩的。”

该文件来自那里：

https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2020-16/segments/1585370490497.6/wet/CC-MAIN-20200328074047-20200328104047-00010.warc.wet.gz

有谁知道是什么问题？我需要一个特殊的图书馆吗？

c#gzip common-crawl

2020-04-26T19:26:59.533

0 投票

0 回答

157 浏览

apache-spark - Common Crawl：pyspark，无法使用

作为实习的一部分，我必须下载 Hadoop 和 Spark，并在 Common Crawl 的一些数据上对其进行测试。我尝试按照此页面的步骤https://github.com/commoncrawl/cc-pyspark#get-sample-data（我在我的计算机上安装 Spark 3.0.0）但是当我在我的计算机上尝试它时（我使用Ubuntu）我有很多错误，它似乎不起作用。
特别是，当我执行程序“serverur_count.py”时，我有很多行是这样写的： Failed to open /home/root/CommonCrawl/... 并且程序突然以书面形式结束：.MapOutputTrackerMasterEndpoint 停止。你知道如何纠正这个吗？（这是我第一次使用这些软件）对不起我的英语并提前感谢您的回复

apache-spark hadoop pyspark common-crawl

2020-06-24T14:05:35.527

0 投票

1 回答

286 浏览

python - newsplease commoncrawl.py 文件中的异常

我正在使用从https://github.com/fhamborg/news-please克隆的 newsplease 库。我想使用 newsplease 从 commoncrawl 新闻数据集中获取新闻文章。我正在按照此处的说明运行 commoncrawl.py 文件。我使用了以下命令-

在执行以下命令时，我收到以下错误 -

这里有什么错误我该如何解决这个问题。

https://github.com/fhamborg/news-please表示采用 newsplease/examples/commoncrawl.py 中的配置部分。这是什么意思？
我已经从这个文件中复制了配置并粘贴到了newsplease/config目录中的config.cfg中。这是他们指示的吗？或者我在这里犯了一个错误。

我正在使用python 3.6。我的机器上只安装了一个 python。

python web-crawler python-newspaper common-crawl newspaper3k

2020-07-12T10:21:37.480

0 投票

1 回答

172 浏览

amazon-web-services - Common Crawl S3 存储桶所需的 AWS 凭证

我正在尝试访问 Common Crawl 新闻 S3 存储桶，但我不断收到“致命错误：无法找到凭据”消息。关于如何解决这个问题的任何建议？据我所知，Common Crawl 甚至不需要凭据？

amazon-web-services amazon-s3 common-crawl aws-credentials

2020-09-06T02:46:39.030

0 投票

1 回答

67 浏览

java - 为什么我的 Apache Nutch warc 和 commoncrawldump 在爬网后失败？

我已经使用 Nutch 成功爬取了一个网站，现在我想从结果中创建一个 warc。但是，运行 warc 和 commoncrawldump 命令都会失败。此外，bin/nutch dump -segement .... 在同一段文件夹上运行成功。

我正在使用 nutch v-1.17 并运行：

hadoop.log 的错误是ERROR tools.CommonCrawlDataDumper - No segment directories found in my/path/ 尽管刚刚在那里进行了爬网。

java nutch common-crawl warc

2020-09-15T09:43:51.467

0 投票

0 回答

129 浏览

python - 将 pyspark CommonCrawl 存储库部署到 EMR

我正在尝试从我的 EMR 集群中托管在 S3 上的公共 CommonCrawl 数据中提取 WET 文件。为此，CommonCrawl 有一个cc-pyspark 存储库，他们在其中提供示例和说明，但是，我不理解使事情顺利进行的说明。如何将此存储库部署到我的集群？这应该是我的引导脚本的一部分吗？

最终目标是通过 spark 作业处理 WET 文件中的文本。到目前为止，我一直在使用托管笔记本尝试使用 boto3 下载 WET 文件，但没有成功。

这是我用来引导 EMR 和其他 python 包的代码。

python apache-spark pyspark amazon-emr common-crawl

2020-09-28T07:09:04.830

0 投票

1 回答

272 浏览

common-crawl - 如何从 CommonCrawl 检索页面的 HTML？

假设我有：

CC*.warc 文件的链接（以及文件本身，如果有帮助的话）；
抵消; 和
长度

如何获取该页面的 HTML 内容？

感谢您的时间和关注。

common-crawl

2020-10-23T22:54:55.700

0 投票

1 回答

155 浏览

python - 在 python 中从 s3 流式传输 gzip 文件

嗨，我正在开发一个有趣的项目，使用常见的爬网数据我有一个从这里开始的最新爬网 warc 文件路径的子集

所以基本上我有一个像https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2020-45/segments/1603107863364.0/warc/CC-MAIN-20201019145901-20201019175901-00000.warc.gz这样的网址（warc 路径中的第一个 url），我在请求中流式传输，如下所示：

从Python解压缩字节流的stream_gzip_decompress ？

前三个块似乎可以很好地解压并打印出来，然后脚本就永远挂起（我只等了大约 8 分钟。它似乎仍在运行这些块，但被抓住了，if rv:所以不会产生任何东西，但似乎仍然以字节为单位。

python gzip zlib common-crawl

2020-11-30T00:04:44.453

0 投票

2 回答

423 浏览

python - 如何从 Common Crawl 获取网页文本？

使用普通爬网，有没有一种方法可以从特定域（例如，wisc.edu）的所有页面下载原始文本？我只对用于 NLP 目的的文本感兴趣，例如主题建模。

python web-scraping common-crawl

2020-11-30T18:21:18.017

1 2 3 4 5 6 7 8 9 10

问题标签 [common-crawl]

Reference