问题标签 [aws-transcribe]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
88 浏览

amazon-web-services - Amazon Transcribe Medical - 不支持采样率

我有一些采样率为 8000hz 和 11025hz 的文件。

亚马逊自己的文档表明有效的 MediaSampleRateHertz 介于 8000 - 48000 之间(包括在内,通过示例判断)。

但是,运行媒体转录作业(通过 boto3 和直接在 AWS 控制台中的服务上)会返回失败,原因如下:

  • 不支持 8000 Hz 的音频采样率。更改媒体文件的音频采样率,然后重试您的请求。
  • 不支持 11025 Hz 的音频采样率。更改媒体文件的音频采样率,然后重试您的请求。

这发生在指定采样率并让 AWS 确定它(它正确地执行)时。

我哪里错了?

0 投票
0 回答
86 浏览

amazon-web-services - aws 转录说话人识别不准确。如何改进它?如果无法改进,还有哪些其他最佳选择?

我要转录的视频是:https ://www.youtube.com/watch?v=nxkkXTbl3_4

视频中有 3 位独特的演讲者。我正在转录多个视频,每个视频的扬声器范围为 2-5。

这是我的转录代码:

JSON文件是:

转录很好,说话人识别仅对大约 50% 的视频有效。 如何提高说话人识别的准确率?

0 投票
1 回答
110 浏览

amazon-web-services - 使用 AWS Transcribe 自定义词汇 - AWS 中的日语

在使用 aws 转录器时,我想创建自定义词汇,但无法使用日语单词创建自定义词汇,也无法找到任何自定义词汇短语文件样本。尝试了表中的字符代码和直接的日语单词字符串数组。都没有奏效。收到错误“您尝试创建的词汇表包含无效字符或格式不正确的术语。有关详细信息,请参阅开发人员指南。” 这是我的代码

任何线索将不胜感激!

0 投票
1 回答
87 浏览

arrays - 无法解码来自 AWS 的网络响应

我正在尝试为 AWS 转录设置一个 websocket,但我已经被困了一天多,试图解码Uint8ArrayView我收到的字节数据 / 作为响应。非常感谢任何帮助,我尝试了大量的解码、ByteBuffers 等,但无法弄清楚。

这是有关数据应如何输入的小文档: https ://docs.aws.amazon.com/transcribe/latest/dg/event-stream.html

以下是有人用 Javascript 中的相同响应轻松做到这一点的方法:使用marshaller (GitHub 上的完整代码)

这是我收到的响应数据:

0 投票
2 回答
329 浏览

amazon-web-services - 无法导入模块“lambda_function”:没有名为“_awscrt”的模块

我正在使用这篇文章Asynchronous Amazon Transcribe Streaming SDK for Python

我正在尝试为所需的库创建一个 lambda 层。

我使用了以下命令:

但是当我在我的 lambda 函数中使用该层时出现以下错误:

这同样适用于本地的虚拟环境。我不确定确切的问题是什么。

我什至尝试单独安装 awscrt 但它没有用。

任何形式的帮助将不胜感激。谢谢!

0 投票
1 回答
173 浏览

python - 在 AWS 中使用自定义语言模型 (python API) 进行转录 - ModelSettings 错误

我正在尝试使用 Python API 使用自定义语言模型来转录语音。我遵循了 AWS 网页上提供的示例脚本。但是,它会抛出以下错误,说它不支持 ModelSettings 下的“LanguageModelName”参数。

ParamValidationError:参数验证失败:输入中的未知参数:“ModelSettings”,必须是以下之一:TranscriptionJobName、LanguageCode、MediaSampleRateHertz、MediaFormat、Media、OutputBucketName、Settings

有人可以帮忙吗?

0 投票
0 回答
92 浏览

python - 使用 Lambda 将转录的 json 文件存储到 s3 中的特定文件夹

我正在关注这个(https://towardsdatascience.com/speech-to-text-using-aws-transcribe-s3-and-lambda-a6e88fb3a48e)博客来创建一个转录文件。视频从控制台上传到 S3,并触发 lambda 函数,该函数调用 Transcribe API 并将该文件存储在目标存储桶中。所以一切运行良好。

但它将文件放在 S3 的根文件夹中。我想在 Lambda 代码的目标存储桶中给出前缀。这意味着我想以这种方式存储转录文件s3://<bucketname>/<folder1>/transcibe.json

我在 OutputBucketName(代码中的第 32 行)上尝试了多种方法,但仍然没有任何效果。

0 投票
0 回答
106 浏览

python - 解析 Asynchronous Amazon Transcribe Streaming SDK for Python 返回的说话者标签

我正在创建一项服务来转录实时音频流。适用于 Python的异步 Amazon Transcribe Streaming SDK提供了区分说话者的可能性。

show_speaker_label=True参数传递到客户端配置后,API 返回每个单词的说话者标签,如下所示:

我想输出一个简单的逐行转录,其中包括每个句子的说话者标签,如下所示:

但是,我不确定应用哪种策略来解析 API 响应。是否最好通过遍历项目并跟踪当前正在说话的人来解析结果。或者我应该遍历结果并等到遇到“speaker-change”类型的项目?

我已经在 Google 上搜索了示例,但我发现的解决方案要么有点混乱,要么适用于返回的 JSON 响应以进行批量转录。在此处输入链接描述

任何人都有正确解析这些结果的经验吗?您的意见将非常有帮助。

0 投票
1 回答
760 浏览

aws-transcribe - AWS transcribe 无法从链 AwsCredentialsProviderChain 中的任何提供商加载凭证

我正在运行一个使用 AWS TranscribeStreaming 的 java 程序。我已经创建(从 AWS 控制台)并下载了 AWS_ACCESS_KEY_ID 和 AWS_SECRET_ACCESS_KEY 然后设置环境变量。当我运行程序时,我收到错误消息:

无法从链 AwsCredentialsProviderChain 中的任何提供者加载凭证。

我不知道为什么,但在使用 Google SDK 进行语音识别时也会发生此错误。

这是我要运行的代码。

0 投票
2 回答
1455 浏览

angular - 如何使用 AWS Transcribe javascript sdk

我正在尝试在 Angular 项目中使用@aws-sdk/client-transcribe-streaming,但没有任何运气。

以下代码是 AWS 提供的唯一示例

正如 SDK 的文档所述,该StartStreamTranscriptionCommand对象期望params参数的类型为StartStreamTranscriptionCommandInput

这个StartStreamTranscriptionCommandInput对象有一个AudioStream类型为 的字段 AsyncIterable<AudioStream>,我假设它是发送给 AWS 转录的音频流。

问题是我不知道如何创建这个AudioStream对象,文档给我们的唯一提示是它是“PCM 编码的音频 blob 流。音频流被编码为 HTTP2 数据帧。”

任何有关如何创建的帮助AsyncIterable<AudioStream>将不胜感激。