问题标签 [google-speech-to-text-api]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
426 浏览

machine-learning - 语音识别中的置信度分数是什么意思?

许多语音转文本服务(例如 Google 的)提供了置信度分数。至少对于谷歌来说,它介于 0 和 1 之间,但显然不是特定转录正确的概率,因为替代转录的置信度加起来超过 1。此外,有时置信度较高的结果排名较低。

那么,它是什么?语音识别社区中是否存在公认的“置信度分数”含义?我已经看到对最小贝叶斯风险的引用,但即使这是他们正在做的事情,这也不能回答这个问题,因为这取决于辅助损失函数的选择。

0 投票
1 回答
672 浏览

python - DefaultCredentialsError 提出“找不到文件”

我是一名初学者,尝试执行一些 Speech-to-Text 作为实验。我是 Google Cloud API 的新手,我在凭据身份验证中遇到了困难。

我已使用代码尝试将 20 分钟长的音频文件转录为文本。为此,我正在使用 Google Colaboratory。

我的代码只是导入,用于将 JSON 文件添加到 env 路径的代码块,链接中的函数,以及使用 .wav 文件的文件路径执行函数的代码块。我没有编辑代码,只是复制了它并使用了他们使用的相同类型的音频文件(.wav)。

我已按照此处的说明获取 JSON 文件以进行授权。

为了设置环境变量,GOOGLE_APPLICATION_CREDENTIALS我在函数之前插入了一个代码块,如下所示:

这没有引发任何错误,因此我假设凭据已添加到路径中。但是,当我像这样执行函数时:

我得到错误:

从我上面分享的同一个“认证入门”链接中,有一个函数implicit()可以测试认证是否正确完成。我定义了函数并运行它,我得到了同样的错误。我到底做错了什么?我也set GOOGLE_APPLICATION_CREDENTIALS=folder_path\\My First Project-##########.json按照说明在 cmd 中运行。它也没有返回任何错误。那么为什么它说找不到文件呢?

我已经重新检查了多次,文件路径没有问题,我只是复制了它并添加了双反斜杠(这是由于错误SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \UXXXXXXXX escape

0 投票
0 回答
107 浏览

python - 从 Flask Celery 调用 Google Speech to Text API 导致 celery 崩溃

试图将谷歌语音运行到 celery 中的文本,但工作线程正在崩溃。下面是从 celery 任务中执行的代码。

它没有在这条线之后运行-

在 celery 终端中获取以下堆栈跟踪-

我们不能从 celery 或任何其他工作线程调用 Google Speech API 吗?如果我错过了什么,请告诉我。已经提到了这个https://github.com/googleapis/python-speech

0 投票
1 回答
201 浏览

node.js - 将 Google-Speech-Text 结果发送到服务器

我正在尝试将这个示例代码生成的脚本从 google 发送到 nodejs 服务器并显示给用户。

我很难从谷歌语音客户端中访问成绩单。还可以参考如何从 webapp 而不是本地麦克风传递麦克风输入,因为目标是通过浏览器从用户那里获取麦克风输入并传递给 google-speech-to-text api。

0 投票
1 回答
185 浏览

google-cloud-platform - 如何使用 jq 从 Google Video Intelligence API Speech Transcription JSON 输出中提取多个发言者的成绩单?

我正在测试 Google Video Intelligence 语音转文本,以便用多个扬声器转录播客剧集。

我提取了一个示例并将其发布到一个要点:output.json

上面的命令将打印出startTime每个段的,以及段本身。jq-输出.json

我的目标是让speakerTag每个段包含在我的 jq 输出中。

这就是我被困住的地方......开始,其中的每个数组都.alternatives[]包含.transcript一个包含该段的字符串.confidence,以及.words[]一个包含该段的每个单词及其说出时间的数组。

JSON 的那部分是我如何获得输出的第一部分。然后,在遍历完成绩单的每一段之后,在底部,它有一个最后一个.alternatives[]数组,包含(再次)整个成绩单中的每个单词,一次一个单词,以及它的 startTime、endTime 和 speakerTag。

这是我的意思的简化示例:

我的想法是以某种方式通过jq-output.json,并将每个与原始视频智能 API 输出中找到startTime的对应匹配。speakerTag

我尝试了一些变体,只打印出开始时间和扬声器标签,然后在下一步中匹配这些值。我的问题是不了解如何仅在 startTime 具有相应的 speakerTag 时打印它。

如评论中所述,最好在一个命令中生成此结果,但我只是试图将问题分解为我可以尝试理解的部分。

0 投票
0 回答
91 浏览

google-speech-to-text-api - error.runtime.java.lang.NoClassDefFoundError ,错误处理请求,java.lang.NoClassDefFoundError: com/google/cloud/speech/v1/SpeechClient

我已经在 Eclipse 上成功运行了 Speech to text 独立应用程序,但现在我将其与我的 vxml 应用程序集成并部署在 tomcat 上,但在运行时我面临以下问题。

可能是什么原因 。

error.runtime.java.lang.NoClassDefFoundError ,错误处理请求,java.lang.NoClassDefFoundError: com/google/cloud/speech/v1/SpeechClient

Tomcat 版本:8.5 Java 版本:1.8.0.231

谢谢和问候塔伦耆那教

0 投票
0 回答
46 浏览

google-speech-api - Google 语音转文本服务的数字转换问题

我们在使用一个号码的 Google 语音转文本服务方面遇到了一些问题(直到现在):

数字以 ...35984778 结尾,我们正在变成 ...35984 526。最后 3 个数字完全是错误的。口语是德语。

可以通过以下步骤重现该问题:

  • 用户通过电话提供他的电话号码 ...35984778。此数据被发送到 Google 语音转文本 API。
  • Google 语音转文本服务提供 ...35984 526

其他数字与 ...09778 之类的结尾一起正常工作。

以下是应用程序日志文件中的一些行:

这个问题也可以用安卓手机重现。我的一位同事用她的手机进行了测试,并且确实出现了同样的问题。此测试仅在手机上进行,而不是在集成了 Google 语音转文本服务的应用程序上进行(如上所述)。

0 投票
1 回答
125 浏览

wordpress - 在 WordPress 上集成 Google Speech-to-Text

我计划在 Wordpress 上制作一个直播网站,并且我计划使用 Google Speech-to-Text API 来自动为在 Wordpress 上播放的直播流添加字幕。我不确定这个概念是否完全可以使用 Google Speech-to-Text 来实现,

现在的问题是:

  1. 这个概念是否适用于当前的 Google Speech-to-Text API?
  2. 如果是,Google Speech-to-Text 是否可以从网站中的实时流视频接收输入(而不是通常从麦克风输入)?
  3. 它也适用于直播视频播放吗?
  4. 我从哪里开始实施 API?
  5. 如果 Google Speech-to-Text 不能用于这样的事情,还有其他选择吗?

我很感激我能得到的任何帮助,因为我开始有点绝望了。如果你们可以使用简单的英语,也很感激,因为它不是我的第一语言。

0 投票
0 回答
247 浏览

python - 您可以使用 Selenium + Python 单击 reCapatcha 的“音频挑战”按钮吗?

我遇到的问题是 iframe 元素说它们在尝试引用 xPath 时不能被硒点击

我看到了这个原始的stackoverflow:

找到 reCAPTCHA 元素并点击它——Python + Selenium

但给出的解决方案:

给了我这个:

我不确定这是否可能,但如果是这样,请告诉我或替代方案......

0 投票
1 回答
61 浏览

google-cloud-platform - gcloud 如何设法使用 svcacc only API?

我试图了解 gcloud 如何管理需要服务帐户才能访问它们的 API,例如使用您的用户(不是 svcacc)凭据访问语音 API 将导致“403 您的应用程序已使用来自 Google Cloud 的最终用户凭据进行身份验证Speech.googleapis.com 不支持的 SDK 或 Google Cloud Shell”。

然而,当我运行gcloud ml speech recognize gs://cloud-samples-tests/speech/brooklyn.flac --language-code=en-US它时,它工作得很好——尽管我没有按照快速入门 [1] 中的描述设置任何专用的 svcacc 密钥,甚至为了确保安全,甚至禁用了项目中的所有服务帐户。

再说一次,

  • gcloud ml speech recognize gs://cloud-samples-tests/speech/brooklyn.flac --language-code=en-US- 作品
  • curl -s -H "Content-Type: application/json" -H "Authorization: Bearer "$(gcloud auth application-default print-access-token) https://speech.googleapis.com/v1/speech:recognize -d @sync-request.json根据 [2] 失败,上面出现 403 错误

问题:gcloud 如何在我不提供专用服务帐户的情况下工作?

[1] https://cloud.google.com/speech-to-text/docs/quickstart-gcloud