问题标签 [aws-transcribe]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
amazon-web-services - 是否可以使用 AWS 转录将人员映射到转录本?
我需要使用一些转录服务来转录语音。我使用 AWS transcribe 获得了非常好的结果。但我也需要知道哪个人说了什么。这可以通过 AWS 转录吗?我找不到任何关于此的信息。
前任。我现在得到的是
演讲者1:你好,你好吗?
演讲者2:我很好,你好吗?
演讲者1:好的……
我想得到的是能够知道谁是扬声器 1 和扬声器 2。例如通过上传样本
鲍勃:你好,你好吗?
爱丽丝:我很好,你好吗?
鲍勃:好吧……
这对 AWS 可行吗?
audio - 将两个音频流混合为一个,使音频在通道中分离(Web)
在我的 MERN 堆栈项目中,我有两个 MediaStream,我将它们合并为一个(使用 audioContext.createMediaStreamDestination())。然后我将此流发送到 AWS 转录。我需要能够区分扬声器,来自这两个不同的流(一个流=一个扬声器)。亚马逊内置扬声器识别功能目前仅适用于英语,我正在使用德语。AWS 还提供了区分通道的可能性。是否有可能将我的两个流变成一个流的两个通道而不是简单的混合,然后我可以将其发送到 AWS 并使用通道识别来区分扬声器?
amazon-web-services - 当我想开始新的 AWS Transcribe 作业时,为什么会出现超时?
我正在尝试使用 Amazon Transcribe,但每当我开始新的 Transcribe 作业时,都会收到以下超时错误:
编辑:我有时也会收到以下“无法连接到实例元数据服务”错误:
这就是我的 transcribe_create_job.js 文件的样子:
这就是我的 transcribeClient.js 文件的样子:
我从官方文档中复制了代码,但我无法弄清楚为什么会出现此错误。我也没有在网上找到这个错误的任何解释,所以我希望其他人知道我为什么会得到这个错误。
提前谢谢你的帮助!莫里斯
node.js - AWS Transcribe 客户端不提供名为“transcribeClient”的导出
我正在尝试将 AWS Transcribe 集成到我的 Node.JS 应用程序中。AWS S3 和 Polly 工作正常,但 AWS Transcribe 不能。我正在使用 AWS 的示例代码。
当我想通过AWS 示例代码开始转录作业时,我收到以下错误:请求的模块“./libs/transcribeClient.js”不提供名为“transcribeClient”的导出
这也是我收到未定义所需错误的唯一文件。我想知道为什么它只发生在 AWS 转录上而不是其他服务上?我还可以通过 AWS CLI 开始转录工作。
AWS Transcribe 代码不起作用 - transcribeClient.js:
AWS Polly 代码有效 - pollyClient.js:
我期待着您的阅读!谢谢!
amazon-web-services - AWS Transcribe Streaming BadRequestException:“无法解码音频流...”
我正在使用 websockets 在 Dart/Flutter 中构建一个 Transcribe Streaming 应用程序。当我流式传输测试音频(从单声道、16kHz、16 位签名的小端 WAV 文件中提取)时,我得到...
BadRequestException:无法解码您提供的音频流。检查音频流是否有效,然后重试您的请求。
作为测试,我正在使用文件来流式传输音频。我每秒发送 32k 数据字节(大致模拟实时麦克风流)。如果我流式传输所有 0x00 或所有 0xFF 或随机字节,我什至会收到错误消息。如果我将块大小划分为 16k 并将间隔时间划分为 0.5 秒,那么它会在出错之前再多走一帧......
至于数据,我只是在 EventStream 帧的数据部分按字面意思将字节打包在文件中。显然,事件流包装是正确的(字节布局、CRC),否则我会收到一个错误指示,不是吗?
什么会向 AWSTrans 表明它不可解码?关于如何进行此操作的任何其他想法?
谢谢你的帮助...
这是打包的代码。完整版在这里(如果你敢……现在有点乱) https://pastebin.com/PKTj5xM2
javascript - AWS Transcribe Streaming WebSockets:无法解码音频流
在这个问题上碰壁:使用大多数相同的功能来进行 AWS Transcribe 流式传输。我已经包括了我认为可能导致问题的相关部分。
首先,我能够解组消息并且它看起来正确(标题都在那里并格式化) - 这让我相信我正确地创建了数据结构。这让我觉得我一定是对有效载荷进行了编码或编码不当。
与某些 aws 转录文档资源不同的注意事项。在 websocket 文档中,它显示了三个标头(八位字节流),但我将其删除以更符合 github 上的静态转录 websocket 示例(请参阅 getAudioEventMessage)。我尝试使用/不使用此标头格式化消息。
以下是我认为的相关代码部分。如果有人希望我扩展,我会附加额外的代码。
首先,我使用音频上下文拉入流,数据正在填充并且看起来正确。
在我的视图上点击记录按钮后,会触发一个事件,该事件会为我的 websocket 获取正确签名/格式化的 url,这运行良好,并且连接无缝发生。套接字被打开,并在处理音频数据时将其发送到下面的 ProcessStream。socket.send(message) 返回无法解码音频数据的响应。我经历过一些错误,例如无效的 Web 套接字框架等等。我的问题可能在于我如何处理audioChunk。
这会在编组之前将音频事件消息格式化为 AWS Transcribe EventStream 规范。
我现在没有使用 NodeJS,我不完全理解的一件事是在格式化事件消息之前完成的 Buffer.From(pcmEncodedBuffer) 调用。我已经尝试过 base64 编码并将其包装在 arrayBuffer 中,以及 nodejs 文档中对 Buffer.From(ArrayBuffer) 的描述中的其他一些内容。
错误:无法解码您提供的音频流。(错误的请求异常)。
附加功能:
node.js - s3 文件保存为“mp3”,但与 AWS 检测不匹配
快速总结正在发生的事情:
- 我将 youtube 视频下载为mp3格式
- 将文件上传到s3
- 确认音频文件有效(确实如此)
- 使用该存储桶的 URI 作为 aws-transcribe 作业
MediaFileUri
- 转录作业失败并出现以下错误:
The media format that you specified doesn't match the detected media format. Check the media format and try your request again.
- 我的 s3 文件是
.mp3
格式的,作业需要一个mp3
文件。所以他们确实匹配,但它失败了?
我在 Stackoverflow 上找到了一篇与此相关的帖子,但我不知道我可以采取哪些可行的步骤来解决这个问题。
mp3需要压缩,如果你只是保存字节数组,那么它不是.mp3格式。您可以使用 soxi 来验证音频文件
我的大脑没有足够的褶皱来理解如何处理这些信息。我正在使用NodeJS
和ytdl-core
包来下载内容并将其上传到 s3。我真的很感激一些关于去哪里和做什么的指示。
node.js - 使用 AWS Transcribe 进行实时转录
我正在做一个需要实时转录现场音频的项目。我使用GitHub 上提供的起始代码尝试了带有 WebSockets 的 AWS Transcribe 。
目前,为了进行测试,我有一个来自 YouTube 的音频文件,我将其流式传输到托管在云 VM 上的 icecast2 服务器。用于流式传输到 icecast2 服务器的 ffmpeg 命令是
ffmpeg -re -i yt.wav -ar 44100 -ac 1 -c:a libvorbis -aq 5 -content_type 'audio/ogg' -vn -f ogg icecast://source:hackme@serverIP:8000/mystream.ogg
我已经修改了 GitHub 上的代码,而不是从麦克风读取音频数据,而是从 icecast2 服务器读取音频。问题在于它有时根本不返回成绩单或返回错误的成绩单。
如果有人可以提供帮助,我将不胜感激
python-3.x - 如何使用 System.exec() 让“AWS Transcribe”在 Tomcat(基于 Windows 服务)中工作?
我正在尝试运行亚马逊提供的 python AWS 示例,以使用“System.exec()”在 Java 程序中转录音频文件。我已将程序的各个部分替换为使用传入的参数。此代码在 Mac 上按预期工作,但在 Windows 中(在 Tomcat 服务下),完全相同的 System.exec() 始终返回 null。
基本的 Python 代码在这里:https ://docs.aws.amazon.com/code-samples/latest/catalog/python-transcribe-getting_started.py.html
我认为这可能是一个身份验证问题,但我已经在预期位置、环境变量甚至 System.setProperty() 语句中尝试了配置文件的身份验证。仍然始终为空。
这是Java代码:
命令数组有:
- Python
- python'py'文件的路径
- 参数
代码在后续行(null)崩溃:
reader.readLine()
我将 Tomcat 服务设置为使用 8MB RAM,并将 Tomcat 重新安装到最新的 9 版本。
如果我在命令行中获取各个参数并执行它们,那一切都很好。
将不胜感激任何建议。
提前致谢。
react-native - React Native 录制视频并捕获 Speech to Text
我正在使用React Native Camera录制视频。我还想同时转录声音(语音转文本)。我正在查看React Native Voice,但我认为我不能同时使用这两个库(共享麦克风输入)。
想知道除了将最终的视频文件上传到某个地方进行转录之外,是否有人有想法。