问题标签 [amazon-machine-learning]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
72 浏览

javascript - Cretae Datasourse 通过 SDK 机器学习 AWS

我正在尝试使用 AWS 机器学习 SDK 创建数据源。首先,我也通过 SDK 将 csv 数据文件上传到 S3 存储。然后我更新此文件的存储桶策略。毕竟我正在尝试创建数据源但我收到错误:

失败 (1):您无权访问“s3://training-data/input/test-likes.csv”。联系 's3://training-data/input/test-likes.csv' 的所有者以获得读取权限。

还需要什么权限?

这是我的存储桶策略:

0 投票
1 回答
66 浏览

amazon-machine-learning - 如果我对具有多个类别的模型进行预测,分数是否会在所有类别中分配?

假设我为 10 个类别中的每个类别创建了一个包含约 30 个项目的模型。我已经采用了提供给我的所有默认值。

该模型的平均 F1 分数为 0.875(我有 2 个类别密切相关,所以这有点损害准确性)。

如果我对一段应该与类别 3 和 8 正匹配的文本进行实时预测,我会得到以下结果:

我想知道的是 3 和 8 是否都有效地具有约 80% 的确定性,但是因为它们都匹配,所以确定性在两者之间是分开的。如果你把所有的 相加predictedScores,你会得到 .999999997,这让我怀疑在每个可用类别之间是否有一个总分 1.0 分......

如果我改为设置 10 个不同的模型,并独立地对每个模型进行二进制匹配,我会看到 3 和 8 得分更高(例如更接近 0.8)吗?

我想一个相关的问题,我真的不需要回答,但可能有助于澄清整个问题,是......如果我有一个绝对适合所有 10 个类别的理论文本,亚马逊机器学习可以用predictedScore价值每个类别1.0?或者,因为最大值predictedScore为 1.0,是否会为每个类别返回 0.1?

0 投票
1 回答
211 浏览

amazon-web-services - 亚马逊机器学习模型重建可能性

AWS 机器学习中只有 2 种内置的预测/分类模型。逻辑回归和线性回归。在当前版本的 AWS ML 中是否有可能以某种方式:

1) 重建逻辑和线性回归模型的底层

2) 构建您自己的用 Python/R 编写的模型,在 AWS ML 上实现它们并运行诸如神经网络、随机森林、聚类算法之类的东西?

在最新版本的 AWS ML 开发人员指南中,我找不到这些问题的明确答案,这是不可能的。有小费吗?

0 投票
3 回答
314 浏览

amazon-web-services - AWS 机器学习数据

我正在使用 AWS 机器学习回归来预测餐厅排队等候的时间,在特定的工作日/时间。今天我有大约 800k 数据。

示例数据:

restaurantID (rowID)weekDay (categorical)time (categorical)tablePeople (numeric)waitingTime (numeric - target)
1                               sun                              21:29                  2                                 23                                            
2                               fri                                 20:13                  4                                 43                                            
...


我有两个问题:

1)我应该将时间用作分类还是数字?最好分成两个字段:分钟和秒?

2)我想在同一个模型中得到我所有餐厅的预测。

示例:我希望发送 rowID 标识符,它会根据每个餐厅数据(忽略其他数据)返回不同的预测。

我试过了,但它对任何 rowID 都返回相同的预测。为什么?

我应该为每家餐厅建立一个模型吗?

0 投票
1 回答
91 浏览

machine-learning - 带注释的图像分类

我有一堆图像(约 3000 张)已根据某些业务标准手动分类(批准/拒绝)。我已经使用 Google Cloud Platform 处理这些图像,获取注释和安全搜索结果,例如(csv 格式):

文件名; 批准/拒绝;成人; 欺骗; 医疗的; 暴力; 注释 A.jpg;批准;非常不相似;非常不相似;非常不相似;不相似;船|0.9,车辆|0.8 B.jpg;拒绝;非常不相似;非常不相似;非常不相似;不相似;文本|0.9,字体|0.8

我想使用机器学习来预测是否应该批准或拒绝新图像(csv 文件中的第二列)。

我应该使用哪种算法?

我应该如何格式化数据,尤其是注释列?我是否应该首先获取所有可用的注释类型并将它们用作具有数值的特征(如果不适用,则为 0)?或者将注释列作为文本处理会更好吗?

0 投票
1 回答
245 浏览

amazon-web-services - AWS 机器学习重新训练模型

我在 AWS 机器学习中使用 S3 csv 文件创建了一些模型。经过大量搜索,我没有找到更好的方法来重新训练我的模型。

我想知道是否有任何选项可以使用新数据重新训练我的模型,或者我是否需要每次都创建一个新模型。

0 投票
1 回答
50 浏览

json - 无法在 boto3.client.get_batch_predictions() 上使用 json.loads

尝试解析 json 响应时出现以下错误

预期的字符串或缓冲区

在我的 Django 模型中,我有以下内容:

然后我这样称呼它

我知道响应是json,所以我希望这会将其更改为字典,但相反,我得到了上面的错误。

这是怎么回事?

0 投票
1 回答
94 浏览

python - boto3.client.get_batch_prediction() OutputURI 的关键

我正在尝试从 boto3.client.get_batch_prediction() 下载输出文件。我认为关键是 OutputURI 的文件名位,所以我正在做客户端:

但这会返回

调用 HeadObject 操作时发生错误 (404):未找到

我认为这意味着该文件不存在。这意味着我的钥匙错了,我该如何找到它?

0 投票
1 回答
141 浏览

neural-network - 具有分类属性的 Amazon 机器学习 - 限制

我正在使用回归模型从一组 120 个属性中预测数值。其中 7 个属性是分类的,但最大的类别有大约 90,000 个唯一值。我正在使用大约 100 万行数据进行训练。

但是,当我查看数据源摘要中的分类属性时,我可以看到这些属性最多显示 5000 个唯一值。这是 AWS 机器学习正在实施的某种限制,它会影响我的模型的准确性,还是只是摘要显示的限制?

AWS 分类属性摘要

此外,我突出显示了最常见的类别结果,其中空白显示为最常见的值。(这可能是因为我的 CSV 包含引号,因此是有效值)AWS ML 是否忽略分类元素的空白条目?或者我应该用 UUID/随机字符串填充缺失的分类值,以便一个共同的共享“空白”值不会扭曲预测。

我知道一些 ML 模型会在输入新的(以前在训练中未见过的)分类值进行预测时保留一个备用神经元。AWS机器学习就是这种情况吗?

我是 ML 新手,如果我的问题很愚蠢,或者我的方法/假设是错误的,我很抱歉。在询问之前,我确实扫描了 AWS 文档。

谢谢。

0 投票
1 回答
882 浏览

machine-learning - 哪种机器学习算法可以评估组的最佳组合?

这是问题的简化版本:

你有一个由五个战士组成的小组。每个战士拥有 1 到 10 件物品,每人可以携带 1 件物品参加战斗。给定关于战斗的信息(地形类型、一天中的时间等),每个战士应该选择哪种武器来产生最强的群体?

物品可以是弓、盾、剑、弹射器、医疗箱、马等。地形类型可以是山区、平原、沼泽、雪地等。

请注意,规则不容易编纂,因为它们是基于物品和地形条件之间的协同作用:例如,“剑”是一种好武器,“弓”是一种好武器,但五个战士有剑或五弓兵不如二弓三剑兵,因为五剑兵无掩体易受远程攻击,五弓兵因盾而无用。还有复杂的地形条件,例如,如果地形很难穿越,或者如果你在山顶上,弓会更好。一匹马在平坦的地形上会很棒,但是如果一个人有一匹马而其他人没有武器,那么这匹马就没用了。

我天真的解决方案是(a)训练机器学习回归算法以将地形信息和一组 5 个项目组合作为输入并产生一个值,越高越好,然后(b)产生项目的所有组合输入,饲料每个进入算法,并选择最高值。然而,随着组合学的爆炸式增长,这很快就会变得非常昂贵。

有没有更好的算法来表达“考虑到所有这些可能性,选择最佳组合”?如果它可以在亚马逊的机器学习堆栈上使用,则可以加分。