问题标签 [aws-transcribe]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
amazon-web-services - Amazon Transcribe Medical - 不支持采样率
我有一些采样率为 8000hz 和 11025hz 的文件。
亚马逊自己的文档表明有效的 MediaSampleRateHertz 介于 8000 - 48000 之间(包括在内,通过示例判断)。
但是,运行媒体转录作业(通过 boto3 和直接在 AWS 控制台中的服务上)会返回失败,原因如下:
- 不支持 8000 Hz 的音频采样率。更改媒体文件的音频采样率,然后重试您的请求。
- 不支持 11025 Hz 的音频采样率。更改媒体文件的音频采样率,然后重试您的请求。
这发生在指定采样率并让 AWS 确定它(它正确地执行)时。
我哪里错了?
amazon-web-services - aws 转录说话人识别不准确。如何改进它?如果无法改进,还有哪些其他最佳选择?
我要转录的视频是:https ://www.youtube.com/watch?v=nxkkXTbl3_4
视频中有 3 位独特的演讲者。我正在转录多个视频,每个视频的扬声器范围为 2-5。
这是我的转录代码:
JSON文件是:
转录很好,说话人识别仅对大约 50% 的视频有效。 如何提高说话人识别的准确率?
amazon-web-services - 使用 AWS Transcribe 自定义词汇 - AWS 中的日语
在使用 aws 转录器时,我想创建自定义词汇,但无法使用日语单词创建自定义词汇,也无法找到任何自定义词汇短语文件样本。尝试了表中的字符代码和直接的日语单词字符串数组。都没有奏效。收到错误“您尝试创建的词汇表包含无效字符或格式不正确的术语。有关详细信息,请参阅开发人员指南。” 这是我的代码
任何线索将不胜感激!
arrays - 无法解码来自 AWS 的网络响应
我正在尝试为 AWS 转录设置一个 websocket,但我已经被困了一天多,试图解码Uint8ArrayView
我收到的字节数据 / 作为响应。非常感谢任何帮助,我尝试了大量的解码、ByteBuffers 等,但无法弄清楚。
这是有关数据应如何输入的小文档: https ://docs.aws.amazon.com/transcribe/latest/dg/event-stream.html
以下是有人用 Javascript 中的相同响应轻松做到这一点的方法:使用marshaller
(GitHub 上的完整代码)
这是我收到的响应数据:
amazon-web-services - 无法导入模块“lambda_function”:没有名为“_awscrt”的模块
我正在使用这篇文章Asynchronous Amazon Transcribe Streaming SDK for Python。
我正在尝试为所需的库创建一个 lambda 层。
我使用了以下命令:
但是当我在我的 lambda 函数中使用该层时出现以下错误:
这同样适用于本地的虚拟环境。我不确定确切的问题是什么。
我什至尝试单独安装 awscrt 但它没有用。
任何形式的帮助将不胜感激。谢谢!
python - 在 AWS 中使用自定义语言模型 (python API) 进行转录 - ModelSettings 错误
我正在尝试使用 Python API 使用自定义语言模型来转录语音。我遵循了 AWS 网页上提供的示例脚本。但是,它会抛出以下错误,说它不支持 ModelSettings 下的“LanguageModelName”参数。
ParamValidationError:参数验证失败:输入中的未知参数:“ModelSettings”,必须是以下之一:TranscriptionJobName、LanguageCode、MediaSampleRateHertz、MediaFormat、Media、OutputBucketName、Settings
有人可以帮忙吗?
python - 使用 Lambda 将转录的 json 文件存储到 s3 中的特定文件夹
我正在关注这个(https://towardsdatascience.com/speech-to-text-using-aws-transcribe-s3-and-lambda-a6e88fb3a48e)博客来创建一个转录文件。视频从控制台上传到 S3,并触发 lambda 函数,该函数调用 Transcribe API 并将该文件存储在目标存储桶中。所以一切运行良好。
但它将文件放在 S3 的根文件夹中。我想在 Lambda 代码的目标存储桶中给出前缀。这意味着我想以这种方式存储转录文件s3://<bucketname>/<folder1>/transcibe.json
。
我在 OutputBucketName(代码中的第 32 行)上尝试了多种方法,但仍然没有任何效果。
python - 解析 Asynchronous Amazon Transcribe Streaming SDK for Python 返回的说话者标签
我正在创建一项服务来转录实时音频流。适用于 Python的异步 Amazon Transcribe Streaming SDK提供了区分说话者的可能性。
将show_speaker_label=True
参数传递到客户端配置后,API 返回每个单词的说话者标签,如下所示:
我想输出一个简单的逐行转录,其中包括每个句子的说话者标签,如下所示:
但是,我不确定应用哪种策略来解析 API 响应。是否最好通过遍历项目并跟踪当前正在说话的人来解析结果。或者我应该遍历结果并等到遇到“speaker-change”类型的项目?
我已经在 Google 上搜索了示例,但我发现的解决方案要么有点混乱,要么适用于返回的 JSON 响应以进行批量转录。在此处输入链接描述
任何人都有正确解析这些结果的经验吗?您的意见将非常有帮助。
aws-transcribe - AWS transcribe 无法从链 AwsCredentialsProviderChain 中的任何提供商加载凭证
我正在运行一个使用 AWS TranscribeStreaming 的 java 程序。我已经创建(从 AWS 控制台)并下载了 AWS_ACCESS_KEY_ID 和 AWS_SECRET_ACCESS_KEY 然后设置环境变量。当我运行程序时,我收到错误消息:
无法从链 AwsCredentialsProviderChain 中的任何提供者加载凭证。
我不知道为什么,但在使用 Google SDK 进行语音识别时也会发生此错误。
这是我要运行的代码。
angular - 如何使用 AWS Transcribe javascript sdk
我正在尝试在 Angular 项目中使用@aws-sdk/client-transcribe-streaming,但没有任何运气。
以下代码是 AWS 提供的唯一示例
正如 SDK 的文档所述,该StartStreamTranscriptionCommand
对象期望params
参数的类型为StartStreamTranscriptionCommandInput。
这个StartStreamTranscriptionCommandInput
对象有一个AudioStream
类型为 的字段 AsyncIterable<AudioStream>
,我假设它是发送给 AWS 转录的音频流。
问题是我不知道如何创建这个AudioStream
对象,文档给我们的唯一提示是它是“PCM 编码的音频 blob 流。音频流被编码为 HTTP2 数据帧。”
任何有关如何创建的帮助AsyncIterable<AudioStream>
将不胜感激。