问题标签 [aws-snowball]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
257 浏览

amazon-web-services - Amazon-S3 提供硬盘服务的 url?

是否有一项服务会从客户那里获取 Amazon S3 url 列表,将文件下载并复制到一个/多个硬盘驱动器中,然后将硬盘驱动器运送给客户并收取费用?

我正在考虑类似 Amazon Snowball 之类的东西,但它会将硬盘驱动器发送给客户,当它们到达客户的目的地时,它们可以简单地搁置。

编辑:看起来 Amazon Snowball 和 Amazon Import/Export Disks 实现了一些功能,但客户(我)仍然需要做一些工作。所以我想我正在寻找一家公司,该公司做了这些中间人额外的步骤,只是将最终的磁盘运送到搁置的客户那里。

有任何想法吗?

0 投票
1 回答
212 浏览

amazon-web-services - 超出 AWS Snowball GC 开销限制

我正在尝试通过 AWS 的雪球服务将 5TB 的数据发送到 S3。

我已收到雪球,并已通过雪球客户端连接到它。但是,当我调用 snowball cp 命令将文件从本地服务器复制到 snowball 时,我遇到了问题。cp 命令一开始很好,但很快就卡住了,接着是一个错误:

我正在连接到 linux 机器上的雪球并运行以下命令

提前致谢。

0 投票
1 回答
547 浏览

c# - 使用 c# 将数据传输到 aws s3 雪球

我正在尝试使用雪球将所有数据导入 s3,但我需要跟踪每个文件的一些元数据。我有一些 c# 代码可以使用此元数据将文件直接上传到存储桶,这工作正常。我想我可以使用雪球 s3 适配器连接到我的雪球并从我的 c# 代码上传数据,因为这个链接说:

您可以将 S3 适配器与AWS 开发工具包、AWS CLI 或您自己的自定义 Amazon S3 REST 客户端等现有 Amazon S3 接口结合使用。

我的适配器在http://localhost:8090上运行,所以我尝试通过传入一个 AmazonS3Config 对象并将其设置为 Amazon3Client 的端点作为 ServiceUrl,但是当我尝试使用 PutObjectRequest 上传文件时或 TransferUtility,我得到以下异常:

我尝试使用我的本地 IP 地址以及 127.0.0.1,但都得到了相同的错误。当我使用亚马逊 cli 将文档上传到雪球,--endpoint用于更改端点时,它可以工作(使用 localhost 或我的本地 ip),所以显然它只是关于 .net sdk 的东西。但我真的更喜欢使用我现有的 c# 代码,而不是编写一个命令行程序来执行此操作 - 从 cli 中它不会那么简单。

编辑:这是不起作用的 c# 代码:

这是有效的命令行语句:

谁能帮我?

谢谢

0 投票
1 回答
727 浏览

hadoop - hdfs distcp 无法从 hdfs 复制到 s3

我们在内部暂存节点中配置了一个带有端点的雪球http://10.91.16.213:8080。一切正常,我什至可以通过 s3 cli 命令列出这个雪球中的文件

现在我正在尝试使用 hadoop distcp 命令将数据从 hdfs 复制到 s3 雪球。首先,我测试了 hadoop distcp 命令以将一些文件复制到我的 aws 帐户中的实际 s3 test-bucket,

上述命令执行良好,并在 hadoop 集群中启动复制作业。现在,为了复制到我内部的雪球,我所要做的就是更改端点。这就是我尝试的;

上述命令失败并出现以下错误;

这是我也尝试过的其他一些 hadoop 配置,但没有运气。

-Dfs.s3a.connection.ssl.enabled=false:因为我的端点是http。

-Dfs.s3a.region=eu-west-1

我错过了什么吗?

更新:

由于错误消息还包括Invalid arguments: 我想我可能在 args 中提供了一些无效字符,所以我尝试将这些选项编写/etc/hadoop/conf/core-site.xml如下;

但得到相同的错误信息:(

更新 2:

读完后在做 ListObjects 时看起来像是 s3 xml 解析问题。AWS 客户端有这个选项.withEncodingType("url");,但找不到与 hadoop distcp 类似的东西。

0 投票
0 回答
49 浏览

python - 从 Snowball 边缘优化中提取对象

我最终购买了一个 SnowballEdge 设备并尝试将文件从该设备复制到我的系统。

设备上大约有 900 万个对象 @ 9TB。

最大的问题:

所有本地 aws cli 命令都有 1000 个对象的限制,因此我一次只能cpmvlssync1000 个对象。

当前解决方案:

就目前而言,我目前有 3 个脚本:

  1. 遍历 Snowball Edge 设备以获取对象名称

    • 我试图用它们来引用它们,ls --recursive但它一次只列出 1000 个对象
  2. 使用 #1 中的文件在我的本地计算机上创建一个目录系统,该目录系统与 Snowball Edge 设备中的目录系统相同

  3. 创建一个 python 脚本以使用 #1 中的文件在文件的迭代中调用 aws cli 命令。这是目前具有 88 个线程的多线程:

    • aws s3 cp --bucket bucketname+/+filename ./filename
    • 这似乎有硬件限制,因为它通过了对写入操作有一点限制的 NIC
    • 我们已开启--quiet关闭打印瓶颈

这个解决方案在 1 分钟内处理了大约 9GB,让我在大约 120 小时内进行传输。

问题:

有没有办法优化 AWS Snowball Edge 到本地设备的数据传输?

0 投票
0 回答
23 浏览

amazon-web-services - 适用于 Snowball 导入的文件的 AWS DataSync

我使用 Snowball 将文件从数据中心移动到 AWS。现在,在我们完成迁移之前,还有一段时间用户在数据中心添加或修改文件。如何使用 DataSync 确保更改将在数据中心中的文件和 Snowball 加载的文件之间同步?

0 投票
1 回答
52 浏览

amazon-web-services - 对象标记可以与 AWS Snowball Edge 一起使用吗?

将使用 Snowball Edge 迁移一些数据。我们想使用对象标记,以便对象可以使用它们的标签传输到 AWS,但不清楚是否可以在 Snowball 上执行此操作?有没有标准的方法来处理这个?谢谢

0 投票
0 回答
20 浏览

amazon-web-services - AWS Snow 设备 - 将文件传输到 S3 时会生成什么事件?

我正在尝试将文件从现场 Drobo 传输到 S3 Deep Archive。由于 S3 在 Deep Storage 中存储内容的方式,归档 8KB 或更小的对象是没有意义的(因为无论如何你都要为 8KB 的 Standard 付费)。生命周期规则不够聪明,无法处理这个逻辑,所以我写了一个lambda。但是,我不确定要使用什么触发器。现在,这个 lambda 只响应事件——ObjectCreated:Put这对于我简单的在线测试来说很好,但我怀疑当我使用 Snowcone 或 Snowball 进行传输时可能无法正常工作。ObjectCreated:Copy如果归档文件,则lambda 本身会引发一个事件。

因此,为了让它与 Snowcone/Snowball 一起使用,很高兴知道:当文件从这些设备传输到 S3 时会生成什么事件?我考虑过只使用 DynamoDB 并将存档的文件名推送到表中,这样我就有了参考,但如果我能得到坚定的指导,这似乎是不必要的。另一种选择是粗暴对待它,只需对收到的每个事件强制归档,因为据我所知,查询对象的当前存储类与尝试更改存储类一样昂贵。

检查了所有文档,包括 184 页的 Snowcone 用户指南 PDF。 这篇博客文章建议PutandPost事件回溯到 HTTP,但我认为 Snow 家族当时并不存在。我在 Jeff Barr 发了推文,但还没有收到回复。有人对这些设备有实际经验吗?

0 投票
1 回答
48 浏览

amazon-web-services - 如何将 aws marketplace ami 导出到 s3 存储桶?

我需要将 AWS 市场 ami 导出到 s3 存储桶。ec2 导入/导出功能不起作用,因为底层 ami 是市场 ami 这是我得到的错误

我需要将此 AMI 复制到 snowballEdge 设备中的 s3 存储桶,以便在其上启动 ec2 实例。

0 投票
0 回答
42 浏览

apache-spark - 自定义端点上来自 s3a 的 Spark 加载数据停止

我试图通过简单地运行pyspark --master yarn以下代码来对火花集群进行简单的操作:

没有错误显示,但操作没有完成。此外,如果我在 S3 中传递一个不存在的路径,它会抛出一个错误,指出该路径不存在。如果我尝试从 HDFS 读取它会工作。因此,这似乎是与 S3 在读取数据时的通信问题。

以下是我的堆栈的详细信息:

我的 core-site.xml

有关解决此问题的任何想法?太感谢了!