问题标签 [transcription]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
audio - 如何在 OS X 上获得实时转录(没有音频文件)?
我正在开发一个应用程序,供那些陷入多余会议的人使用,他们需要知道什么时候有人问他们问题。
我的计划是:
- 将会议的音频(通常来自我的扬声器)流式传输到语音到文本程序中
- 将其流式传输到可以监视我的名字和/或提高语调的问题中
- 当有人问我问题时,让程序“叮”。然后我可以快速阅读文本并回答。
困难的部分是步骤(1)。我发现的所有语音到文本程序都接受音频文件作为输入,并且不能只是从任何通道流向扬声器/耳机。另一方面,我发现的辅助程序接管了键盘输入。理想情况下,用户将能够通过在会议期间输入其他应用程序来完成富有成效的工作,这样这种解决方案就行不通了。
因此,我正在寻找可以在 OS X 上使用的东西,它可以处理步骤(1),甚至更好地为我完成上述大部分步骤。
我已经对解决方案进行了研究,但找不到步骤(1)的任何内容。我将其他步骤包括在内,因为对于整个程序可能有一个我不知道的更具创造性的解决方案(例如其他一些不用于听写的辅助技术)。
powershell - Start-Transcript and Logging Batch File Output
I have a function in a PowerShell module which creates a log file and starts a transcript using that file (see below). When running a PowerShell script, this works great and captures all output.
When running a PowerShell script which calls a batch file (which we do quite often while migrating from CMD > PowerShell), the batch file output shows on the console in the same window as the PowerShell script, but the transcript log file shows only 1 blank line where the call to the batch file is.
I'm calling the batch files from .ps1 scripts with only the ampersand '&'.
What's strange is that sometimes the batch file output is captured in the log (usually the first batch file called). However I can't find anything special about these files.
What's also strange is that sometimes we call external programs (WinSCP) and the output from those commands only sometimes show in the transcript. Possibly relevant.
For reference, here is the function I use to create a transcript of our processes.
Does anyone have any ideas on how I can capture the batch file output? Preferably I wouldn't have to change every call to a batch file from the script, and make something in the module.
audio - Google Speech API 如何对音频进行分块以进行转录?
当Google Speech API返回长音频转录时,它以不同长度的短文本块的形式返回,每个文本都有一些相关的置信度值。我想知道底层算法如何决定在转录的音频块之间放置边界的位置,因为它似乎比简单地将音频分成固定持续时间的片段并分别转录更复杂(尽管我可能错了)。
python - 如何在 Google Speech API 中转录大文件?
我将如何转录一个大文件,以避免Operation not complete and retry limit reached.
使用 Google Speech API 异步转录大音频文件时出现错误?
可能的解决方案
如果操作尚未完成,您可以通过重复发出 GET 请求来轮询端点,直到响应的 done 属性为 true。
在python中这样做可行吗?还是我应该将文件分成较小的文件并重试?
语音 API 的已知问题
- 编码。
到目前为止我已经尝试过什么
编码命令
为什么 ffmpeg 超过 sox?
我选择 ffmpeg 是因为我使用 sox 得到了这个错误
sox WARN 抖动:抖动裁剪了 55 个样本;减少音量?
输入音频文件
Input File : '2017-06-13-17_48_51.flac'
Channels : 2
Sample Rate : 48000
Precision : 16-bit
Duration : 00:21:18.40 = 61363200 samples ~ 95880 CDDA sectors
File Size : 60.7M
Bit Rate : 380k
Sample Encoding: 16-bit FLAC
运行此命令
输出音频文件
Input File : 'mono.flac'
Channels : 1
Sample Rate : 48000
Precision : 16-bit
Duration : 00:21:18.40 = 61363200 samples ~ 95880 CDDA sectors
File Size : 59.9M
Bit Rate : 375k
Sample Encoding: 16-bit FLAC
Comment : 'encoder=Lavf56.40.101'
蟒蛇文件
Google Speech API 异步 Ex。带显式凭据
我将 Flac Hertz 更改为“48000”并放入显式环境路径
powershell - 如何捕获 powershell Start-Transcript 命令的默认路径以进一步使用 Invoke-Item 调用它?
如何捕获 PowerShellStart-Transcript
命令的默认路径以进一步调用它Invoke-Item
?有没有办法通过管道Start-Transcript
传输到变量并拆分脚本文件的完整路径?
youtube - youtube 使用什么算法来生成视频脚本?
我正在研究开发一个应用程序来为我转录一个音频文件,然后它会给我一个包含单词或短语以及说话时间的文档,就像 YouTube 所做的那样。我可以将文件上传到 YouTube,然后获取成绩单,但我想离线使用它。有人帮忙吗?我可以从哪里开始?
javascript - 自动生成视频的成绩单,即字幕和字幕
有没有办法或任何插件可以生成视频脚本以在网站页面中播放。例如英文视频的字幕和副标题
ios - 1分钟后不重启的连续语音识别
我正在尝试创建一个记录用户声音并同时转录它的应用程序。我正在使用 AVFoundation 和 Speech 框架来完成这项工作。问题是 Apple 将转录时间限制为一分钟。所以,在这段时间之后,我应该回忆一下语音识别请求。问题是我想同时录制声音。
有谁知道我该如何解决这个问题?
这是我正在使用的代码:
从代码中可以看出,我提出了请求,并在 installTap 方法中写入了音频文件。因此,每次我必须重新开始转录时,我还必须移除总线上的水龙头。这样,我就无法继续录制音频文件了。
有什么我可以做的吗?有什么解决办法吗?备择方案?