问题标签 [transcription]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
google-speech-api - 谷歌语音 API 只做部分转录
我正在尝试使用 google-speech-cloud(语音 API)转录一些 FLAC 文件。我正在使用 long_running_recognize (异步),结果只是部分转录 - 基本上是第一句话。似乎当暂停发生时,它会停止处理。返回的音频仅为 2 分钟文件的前 15-20 秒左右。
任何建议,将不胜感激。
马尔
android - google-cloud-speech AAC 编码的转录
向 Google Speech API 团队提出的问题/请求:Google Speech 是否可以为 AAC 编码提供转录?
背景 --- 我们正在开发一款可在 iOS 和 Android 平台上运行的移动应用程序。AAC 是这两个平台上唯一支持的编码。出于性能和成本的原因,能够从 Google 获得 AAC 编码的转录很重要。我们希望避免将 AAC 编码转换为 Google 支持的编码的步骤。
使用有损编码的目的是拥有更小的音频文件——这对于有效使用存储、内存和带宽资源很重要。由于 AAC 是 iOS 和 Android 上唯一可用的编码,如果 Google 语音可以支持 AAC 编码将非常有帮助。
参考:https ://cloud.google.com/speech/docs/basics讨论了 Google Speech API 为其提供转录的所有编码。希望 Google Speech 团队将 AAC 编码添加到列表中。
摘要——我们需要将 AAC 编码发送到 Google Speech API 并获取此编码的转录。如果 Google Speech 团队的任何人正在阅读这篇文章,我将不胜感激 --- Speech 团队是否计划将 AAC 编码添加到 cloud.google.com/speech/docs/basics 中支持的编码列表中?
python - AWS 转录 REST API
AWS 最近发布了一个非常令人兴奋的转录库。
似乎使用它的 API 仅使用python (boto) 或他们的 CLI
我想使用 NodeJS API 或至少拥有 REST API。
我找不到 REST API,有人知道吗?
python - Boto3 不支持转录服务
我正在使用Boto3包来使用aws transcribe 服务转录音频文件
我正在关注AWS 官方示例,但收到此错误:
我正在使用最新的 boto3 包和 aws cli。只是要清楚 - 我能够使用他们的网络界面来转录
python - Google SpeechML API 不适用于嘈杂的音频
我一直在尝试开发一个 python 脚本来从嘈杂的音频文件中转录音频。我的具体用例是正确转录嘈杂的音频部分。当我将文件发送到 SpeechML API 进行处理时,对于嘈杂的音频,响应要么省略要么不正确。有没有办法解决这个问题?我已经尝试过一些工具,比如 sox、语音识别包装器,但它们没有帮助下面是我正在使用的代码
如果名称== '主要':
curl - Watson Speech to Text - 在 ZIP 或 tar.gz 中添加自定义音频资源一直失败
- 我正在尝试在 Speech To Text 中添加 17 个 MP3 文件作为音频资源来构建自定义声学模型。
- 当我单独上传文件时,它们工作正常。
- 当添加为 ZIP 或 tar.gz 文件时,系统会声明它们无效。
- ZIP 和压缩包是在我的 Mac 上使用 ZIP 的系统工具和压缩包的存档实用程序创建的。
这是我传递的用于上传批量文件的 cURL 命令:
我正在使用相同的命令上传单个文件并且它工作正常,所以添加存档有些奇怪。完成这项工作后,我正准备添加近 20 小时的音频。
powershell - 如何自动保存 PowerShell 会话
如何将 PowerShell 窗口(输入和输出)中发生的所有事情自动重定向到文件?我不是指单个命令,而是我希望拥有像记录器这样的东西,它可以捕获所有内容并登录到本地文件中,这样我就有了在 powershell 窗口中完成的事情的历史记录。
node.js - 转录视频以使用 fluent-ffmpeg 流式传输后,如何获得最终大小?
我正在尝试在 node.js 中使用createReadStream
和使用流式传输视频pipe(res)
,如果文件不需要转码(mp4、webm),它可以正常工作。
对于 mkv 文件,我正在使用 fluent-ffmpeg 对其进行动态转码,但问题是我无法在 html 视频播放器中前后移动。
我认为这是因为我们事先不知道最终转码文件的大小,因此我们在标头中发送的范围是错误的,并且不知何故使视频播放器“受限”。
有什么办法可以解决这个问题?
watson - 导出/生成对话对话?沃森对话(助理)
在助手(以前的对话)中完成对话后 - 我希望发布对话记录,发布文本或 .txt 文件等。我无法找到任何方法,希望有什么见解吗?
tensorflow - 整页文本识别数据集创建
我一直在阅读诸如https://arxiv.org/pdf/1704.08628.pdf之类的 OCR 论文,但我很难找出这些数据集是如何实际生成的。
在链接的论文中,他们使用回归器来预测一行文本的起始位置(一个点)和高度。然后,基于该起点和高度,第二个网络执行 OCR 和行尾检测。我意识到这是一个非常简化的解释,但由此得出的结论是,他们的数据集(至少部分)由整页文本“图像”组成,每行的开始位置都带有注释,然后是给定行上的文本转录。或者,他们可以只使用边界框的左下点作为起点,将框的高度作为单词高度(如果数据之前使用边界框准备,则无需重新注释)。
那么像这样的数据集是如何实际创建的呢?查看其他数据集,似乎有一些软件可以创建包含与每个图像相关的基本事实的 XML 文件,有人可以指出我正确的方向吗?我一直在用谷歌搜索并找到许多用情感等注释文本的工具和其他用于注释图像以进行分割的工具(对于像 YOLO 网络这样的东西),但是我在创建像使用的 Maurdoor 数据集这样的东西时空空如也在链接的论文中。
谢谢