问题标签 [transcription]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
nlp - 如何自动转录 Skype 会议,正确归因于每个参与者?
假设每个参与者都同意 Skype 通话的录音和转录,有没有办法转录会议(现场或离线或两者兼而有之),以便生成文本转录,其中每个口述文本都正确归因于演讲者。然后可以将转录本输入到任何种类的搜索或 NLP 算法中。
“自动转录 Skype”的前 3 个 Google 搜索命中指的是使手动转录更容易的应用程序:
(1) http://www.dummies.com/how-to/content/how-to-convert-skype-audio-to-text-with-transcribe.html
(2) http://ask.metafilter.com/231400/How-to-record-and-transcribe-Skype-conversation
(3) https://www.ttetranscripts.com/blog/how-to-record-and-transcribe-your-skype-conversations
虽然录制音频并将其发送到语音到文本引擎是微不足道的,但我怀疑它的质量会非常高,因为最好的结果通常是依赖于说话者的模型(否则我们不必花时间来训练龙自然说话)。
但是,在我们选择说话人相关的转录模型之前,我们需要知道音频的哪个片段属于哪个说话人。有两种方法可以解决这个问题:
有一种简单的方法可以检索来自每个参与者的所有音频,例如,您只需在通话期间从每个扬声器的麦克风录制所有音频,而无需进行任何分段。
如果第一个选项在某些方面不可行或禁止使用,我们必须使用 Speaker Diarization 算法,该算法将音频分割成 N 个集群/扬声器(大多数算法允许被告知音频中有多少扬声器,但有些可以自己解决这个问题)。对于通话进行时的实时转录,我想我们需要一些花哨的实时扬声器分类算法。
在任何情况下,一旦解决了分割问题,每个参与者都会拥有经过训练的扬声器模型,然后将其应用于他们的音频部分。在一天结束的时候,每个人都会得到一个很好的谈话记录,然后我们可以做一些花哨的事情,比如主题分析,或者老大哥可能想要筛选每个人的项目会议,而不必听几个小时的音频。
我的问题是,在实践中实现这一点的方法是什么?
php - 有压力地将 Arpabet 转换为 IPA
我创建了一本字典,但在将单词的Arpabet表示转换为IPA(国际音标)时遇到了问题。
在 Arpabet 中,您可以通过元音后面的数字找到哪个元音有重音。例如,“楼上”一词具有以下 Aprabet 表示:AH0 P S T EH1 R Z
. 1
后面的数字EH
表示重音落在这个元音上。
问题:
我必须将 Arpabet 转换为 IPA 以保持重音,但在 IPA 格式中,重音不是放在元音之前,而是放在整个音节之前(见下图),在某些情况下可能以多个辅音开头。所以我不知道如何以编程方式进行。
问题:用重音显示传入单词的 IPA 表示的最佳方式是什么?我对任何编程语言的解决方案都感兴趣,但最好是 PHP。
PS对不起我的英语。刚学:)
ios - 使用 Apple 的转录
我想知道是否可以在我自己的 IOS 应用程序中使用 Apple 用于 Siri 和听写的东西。
如果这是可能的,那我该怎么做?
如果 Apple 使用第 3 方来转录音频文件,那么它是什么?它有 API 吗?
如果 Apple 自己进行转录,而我不能使用它,那么……那太糟糕了。
非常感谢您的任何回复。都非常感谢!
windows - Powershell 启动脚本错误
我正在从批处理文件运行 powershell 脚本:
每次我运行脚本时,我都会看到错误
错误:尚未开始转录。使用 start-transcript 命令开始转录。
我已经浏览了之前的部分或大部分帖子,代码应该可以工作,但根本没有触发。也没有创建初始日志文件。知道为什么会发生这种情况或有任何帮助吗?
android - 如何使用 IBM Watson websocket 接口转录存储在 android 内存中的音频文件?
我浏览了教程和其他问题,但没有找到有关如何为预先录制的音频文件选择路径并将其发送到服务进行转录的文档。我在教程中遇到了这段代码
curl -X POST -u <username>:<password>
--header "Content-Type: audio/flac"
--header "Transfer-Encoding: chunked"
--data-binary @<path>0001.flac
"https://stream.watsonplatform.net/speech-to-text/api/v1/recognize?continuous=true"
我可以在当前实现 websocket 接口的 android sdk 上做类似的事情吗?
speech-to-text - 设置 Google Cloud Speech API 以转录采访
我有超过 100 小时的音频与需要转录为文本的纪录片的视频采访相关联 - 希望每 30 秒左右有某种时间码标记,以便视频可以轻松匹配编辑中的文本套房。
这些文件是 BWAV 24 位 96khz 和 WAV 16 位 48khz,持续时间从 20 分钟到 2 小时不等。
需要在 VM 中设置哪些资源才能执行此类活动?我怀疑这将是相当密集的计算,因此 VM 可能需要 32 个内核和相当数量的内存,但不需要实时响应,因此如果优先级低并且处理文件需要几个小时就可以了。我的预算微乎其微——300 美元几乎是我们能负担得起的所有文件的最高费用(这是我们不以每小时 75 美元以上的价格将这些文件发送到转录服务的原因之一)。
我已经有一个云平台帐户,但从未使用过。如果有人已经做过类似的事情并且可以给我一些帮助,那么我在四处挣扎是没有意义的。
ipa - 为什么我不能在 Linux 中从 PDF 复制 IPA 符号?
我有一个带有一些音标 (IPA) 的 PDF 文件,例如:ʤ、ə 等。如果我复制带有这些符号的文本,我会粘贴没有它们的文本。
Linux 薄荷 17.
python - Python 获取视频脚本,重命名视频文件脚本中的内容是什么?
我有数千个非常短的一个句子或一个词长的视频剪辑,我需要根据命名约定重命名它们(面向 ESL 学习)。
这是视频文件中所说内容的一个小例子:
我想创建一个循环遍历每个剪辑的脚本,获取脚本,然后将文件重命名为脚本的前 200 个字符。如果成绩单没有标点符号,而不是空格,而是用“_”代替,那就太好了。
继续上面的 Python 示例,将输出以下内容:
成绩单不需要精确,我只是不想点击其中的每一个......
我已经在 Coursera 上学习了几个 Python 课程并理解了循环,并使用 twitter 完成了一个简单的 API,但这个真的超出了我的范围。我知道这是可能的,而且我已经看到了我需要做的一些事情,但我真的很难在精神上把它放在一起。
youtube - youtube 脚本到字幕同步如何工作?
Youtube 有一个功能,您可以将视频中所说的所有内容作为文本提交,然后 youtube 会自动将该脚本自动同步到字幕中。是使用语音识别还是他们通过音频频谱位移来计算同步。网上也有几种类似的服务。
如何开发这样的系统?
speech-recognition - eesen-transcriber - 将技术词添加到词典
我正在使用srvk/eesen-transcriber存储库来转录一些音频文件,并且我已经在我的 Vagrant 虚拟机上按预期启动并运行了所有内容。
我希望能够用 Linux、Laravel 或 MySQL 之类的词转录非常技术性的录音,这些词不能很好地转录。我将如何(轻松地)将这些单词添加到转录软件中,以便在说出时成功识别它们?
更新
我试图按照 Nikolay Shmyrev 在这里找到的建议进行操作:
http://speechkitchen.org/kaldi-language-model-building/
run_adapt.sh
添加新词汇后我可以成功运行脚本newwords.txt
,但是当我尝试使用更新的语言模型用新词汇转录音频文件时,它无法识别新词汇。
这是我尝试遵循有关如何调整语言模型的指示的视频: