2

这是我的 Google Speech to Text AI 设置

在此处输入图像描述

这是 Speech to Text AI 的输出文件:https ://justpaste.it/speechtotext2

这是 YouTube 自动字幕的输出文件:https ://justpaste.it/ytautotranslate

这是视频链接:https ://www.youtube.com/watch?v=IOMO-kcqxJ8&ab_channel=SoftwareEngineeringCourses-SECourses

这是提供给 Google Speech AI 的视频的音频文件:https ://storage.googleapis.com/text_speech_furkan/machine_learning_lecture_1.flac

在这里,我提供时间分配的 SRT 文件

YouTube 的 SRT:https ://drive.google.com/file/d/1yPA1m0hPr9VF7oD7jv5KF7n1QnV3Z82d/view?usp=sharing

Google Speech to Text API 的 SRT(由 YouTube 分配的时间):https ://drive.google.com/file/d/1AGzkrxMEQJspYenCbohUM4iuXN7H89wH/view?usp=sharing

我比较了一些句子,肯定 YouTube 的自动翻译更好

例如

谷歌语音转文本: Represent the **doctor** representation is one of the hardest part of computer AI you will learn about more about that in the future lessons.

What does this mean? Do you think this means that we are not just focused on behavior and **into doubt**. It is more about the reasoning when a human takes an action. There is a reasoning behind it.

YouTube 的自动字幕: represent the **data** representation is one of the hardest part of computer ai you will we will learn more about that in the future lessons

what does this mean do you think this means that we are not just focused on behavior and **input** it is more about the reasoning when a human takes an action there is a reasoning behind it

我检查了很多案例,YouTube 的猜对词要好得多。这怎么可能?

这是我用来提取视频音频的命令:ffmpeg -i "input.mkv" -af aformat=s16:48000:output.flac

4

1 回答 1

1

Youtube Auto Caption功能的自动字幕和 Speech to Text Recognition 的转录都是由机器学习算法生成的,在这种情况下,转录的质量可能会根据不同的方面而有所不同。

值得注意的是,Speech to Text API 使用机器学习算法进行转录,这些算法随着时间的推移而改进,结果可能因输入文件和请求配置而异。帮助 Google 转录模型的一种方法是启用数据记录,这将允许 Google 从您的音频转录请求中收集数据,这将有助于改进其用于识别语音音频的机器学习模型,包括增强模型。

此外,在 Speech to Text API 的请求配置中,您可以指定RecognitionConfig设置。该参数包含encoding、sampleRateHertz、languageCode、maxAlternatives、profanityFilter和speechContext,每个参数都对文件转录的准确性起着重要作用。

特别是对于 FLAC 音频文件,无损压缩有助于提高所提供音频的质量,因为原始数字样本的质量没有下降,FLAC 使用从 0(最快)到 8(最小文件大小)的压缩级别参数。

此外,Speech to Text API 提供了不同的方法来提高转录的准确性,例如:

  • 语音适应:此功能允许您指定 STT 应在音频数据中更频繁识别的单词和/或短语
  • 语音适应增强:此功能允许您根据在音频数据中的识别频率为单词和/或短语添加数字权重。
  • 短语提示:发送为语音识别任务提供提示的单词和短语列表

这些功能可能会帮助您提高 Speech to Text API 识别音频文件的准确性。

最后,请参阅 Speech to Text最佳实践以改进音频文件的转录,这些建议旨在提高 API 的效率和准确性以及合理的响应时间。

于 2020-10-13T22:54:25.567 回答