问题标签 [transcription]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
flash - 如何在我的网站中嵌入交互式脚本?
我可以在我的网站中嵌入免费或付费的交互式转录服务吗?
我找到了几个服务,但我必须给他们视频来转录它,然后他们会给我嵌入我网站的代码,但我想要的是能够通过我制作的转录在我的网站上托管这项服务我自己,甚至把它作为免费服务提供给我的客户。
audio - 给定音频源和准确转录的任何语言的时间戳音频
我希望为音频文件中的每个单词获得大致准确的时间戳。我也有原始文本与音频文件一起使用,可以用作各种交叉引用源。这类似于“音频挖掘”,我相信你只有输入音频,而这里我有音频和文本。
理想情况下,我希望使用开源软件来执行此操作,并希望接受大多数语言作为输入(例如,英语、法语、德语、西班牙语,最好是俄语和普通话)。
我什至会接受只能匹配各种单词的时间戳的解决方案(例如,如果转录不完全准确)。然后将输出文本与原始文本交叉引用以帮助重新调整内容会更容易。
language-agnostic - 通过语音识别从预先存在的成绩单中生成字幕
假设我有该音频的音频和纯文本副本,我如何使用语音识别以编程方式从两者生成字幕?
这与 YouTube 在编辑视频时在其字幕/字幕页面上提供的内容非常相似。
有哪些 API 可用于执行此操作?它有哪些挑战?
我最精通 Java/C#,但这与语言无关。
linux - 使用它的音频源和开源工具有效地生成预转录语音的时间索引
在 TED.com 上,他们有转录,当点击转录的一部分时,他们会转到视频的相应部分。
我想在带有 OSS 的 Linux 上完成 80 小时的音频和转录。
这是我正在考虑的方法:
- 从 30 分钟的样本开始
- 将音频分成 2 分钟的 WAV 文件格式的块,即使它打断了单词
- 在每个块上运行来自 CMU Sphinx 的长音频对齐器的短语检测器,并带有成绩单
- 获取在每个位中找到的已识别单词/短语的时间索引,并计算原始音频文件中 ngram 的实际估计时间。
这看起来是一种有效的方法吗?有没有人真的这样做过?
是否有其他值得尝试的方法,例如可能足够准确的哑字计数?
android - Sphinx4 语音识别转录演示对于短 wav 文件无法正常工作
我刚刚为转录音频文件实现了转录器演示。我的音频文件是 .wav 文件,其中仅包含诸如“BHAVIK”“ANKIT”“SAGAR”之类的名称
我的语法文件由这个语法组成如下: -
公众=(杰伊)|(萨加)|(巴维克)|(安基特)|(米拉杰)|(亚格涅什);
但问题是转录器演示没有提供正确的结果..当我给出“JAY”的.wav文件时,它只是为我提供了其他东西..它没有给出正确的结果..
为什么会这样?我的 .wav 文件在这里你可以听到..
http://www.crocko.com/62E9703E57844AE6B7A172D5CBBB8DE3/Vocaroo_s0dmd1kxVSfJ.wav
请帮助我......在此先感谢我已经像这样在adnroid中实现了逻辑......我使用一个类名作为extaudiorecorder。
公共类 ExtAudioRecorder
{ 私有最终静态 int[] sampleRates = {44100, 22050, 11025, 16000};
}
并且我在我的主要活动中使用该类,如这里..我在按钮单击时录制声音并在另一个按钮单击时停止它
c# - 如何在控制台中正确编写英文转录?
我想在控制台中写英文转录。
在调试器中我有这个səˈdʒest
,但在控制台中我有s??d?est
.
如何解决这个问题?谢谢!
向上
获取转录的客户端
主要方法
windows - 命令行转录工具
我目前正在使用 Dragon 在 IVR 监控系统上执行电话转录。基本上我用dragon监视一个文件夹,将wav文件放在那里,然后等待另一个文件夹中的转录输出。由于龙崩溃,这种解决方案最近引起了相当大的麻烦。
我想要一个简单的可执行文件按需执行转录(从而消除永久运行的软件的需要),例如:
cmd -> 转录 in.wav > out.txt
该软件应该具有可用的意大利语词典和声学模型,或者至少应该易于训练以支持意大利语。我需要在没有办公套件的情况下在 windowx xp 嵌入式(一个相当旧的版本!)上运行,所以 Windows 语音引擎不是一个选项。
任何 lib/dll 以及它在 vbscript 或 python 中使用的代码片段也可以吗?
c# - 如何自动使低于给定音量阈值的音频部分静音?
我正在使用 C# 编写单声道音乐转录应用程序。我想将 WAV 文件的所有部分静音到某个音量阈值以下。知道怎么做吗?
emacs - Ansi彩色文件编辑
语境
有一些来自终端交互的脚本文件,使用传统的 Unix 命令“脚本”获得。
这些脚本包含大量控制字符(如编辑 shell 命令时的退格),以及运行各种命令的结果的大量颜色代码序列。有时,甚至会运行诸如“emacs -nw”或“aptitude”之类的彩色全终端(基于 ncurses)的应用程序。
在程序运行时,TERM 环境变量被设置为“xterm”。
需要1:阅读(或多或少解决)
我需要再次阅读这些文件,有时还需要复制粘贴一些小部分。
问题是:虽然这里改变了一种颜色并没有太大问题,但它们的实际密度使输出几乎不可读。更糟糕的是,编辑过的命令行(带有光标跳转和编辑过的单词)完全不可读。
“好的”解决方案
使用例如“less -r”浏览文件。在同一终端设置中向前翻页可再现各种颜色和字符样式。
但是许多其他功能或多或少都被破坏了,例如向后搜索会产生混乱的终端输出,通常必须按“Ctrl-L”来清理。
需求2:编辑
我首选的编辑器是 emacs。有些人在 emacs 中运行 shell 时也遇到过类似的情况,例如,Emacs shell 有问题。
这里的情况不一样。差异示例:这里我们不必运行实际的 shell,但我们需要像通常的编辑一样自由移动光标。
在这里编辑意味着在编辑器中轻松打开这样的脚本文件,然后:
- 随时通过编辑,查看终端代码所传达的字符变化(颜色、属性)
- (可选)一些在终端网格上相邻但在文件中被一些控制字符分隔的字符将对此有视觉提示
- 插入一些文本的能力,
- 删除部分,
- 使用所有编辑器功能,如搜索/替换等。
- 从文件复制和粘贴(包括到外部程序,它只接收纯文本)
- 在我最疯狂的梦想中,某种“扁平化”动作,比如选择一个带有大量编辑命令行的序列,然后用一系列简单的字符替换它,就好像它是在一次运行中键入的一样。上面提到的“视觉提示”会消失。
unicode - Unicode 到 ASCII:标准化转录?
我的另一个问题提出了一个相关的问题:
是否有 Unicode 到 ASCII 转录的标准表?例如,将德语ü
映射到ue
.
用户 bobince 在评论中提到其他语言以不同的方式使用相同的字符,我担心它们可能不仅使用相同的字形而且使用相同的代码点。因此,例如“ü”到“u”的映射也是可以接受的(通过视觉相似性进行映射)。由 iconv 完成的映射也是如此(例如ü
,参见Juancho 发布的链接)。"u
Juancho 发布的链接中显示的方法在技术上是可行的解决方案。但是,这种映射是否有正式的标准,或者至少有一个用作准标准的映射?理想情况下,它还包括例如非拉丁字符的基于语音的转录。我记得有一个用于日文假名和希腊字符。在这方面也应该不是什么大问题。