“google-speech-to-text-api”的相关标签问题

0 投票

1 回答

426 浏览

machine-learning - 语音识别中的置信度分数是什么意思？

许多语音转文本服务（例如 Google 的）提供了置信度分数。至少对于谷歌来说，它介于 0 和 1 之间，但显然不是特定转录正确的概率，因为替代转录的置信度加起来超过 1。此外，有时置信度较高的结果排名较低。

那么，它是什么？语音识别社区中是否存在公认的“置信度分数”含义？我已经看到对最小贝叶斯风险的引用，但即使这是他们正在做的事情，这也不能回答这个问题，因为这取决于辅助损失函数的选择。

2020-04-20T20:41:18.853

0 投票

1 回答

672 浏览

python - DefaultCredentialsError 提出“找不到文件”

我是一名初学者，尝试执行一些 Speech-to-Text 作为实验。我是 Google Cloud API 的新手，我在凭据身份验证中遇到了困难。

我已使用此代码尝试将 20 分钟长的音频文件转录为文本。为此，我正在使用 Google Colaboratory。

我的代码只是导入，用于将 JSON 文件添加到 env 路径的代码块，链接中的函数，以及使用 .wav 文件的文件路径执行函数的代码块。我没有编辑代码，只是复制了它并使用了他们使用的相同类型的音频文件（.wav）。

我已按照此处的说明获取 JSON 文件以进行授权。

为了设置环境变量，GOOGLE_APPLICATION_CREDENTIALS我在函数之前插入了一个代码块，如下所示：

这没有引发任何错误，因此我假设凭据已添加到路径中。但是，当我像这样执行函数时：

我得到错误：

从我上面分享的同一个“认证入门”链接中，有一个函数implicit()可以测试认证是否正确完成。我定义了函数并运行它，我得到了同样的错误。我到底做错了什么？我也set GOOGLE_APPLICATION_CREDENTIALS=folder_path\\My First Project-##########.json按照说明在 cmd 中运行。它也没有返回任何错误。那么为什么它说找不到文件呢？

我已经重新检查了多次，文件路径没有问题，我只是复制了它并添加了双反斜杠（这是由于错误SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \UXXXXXXXX escape）

python google-cloud-platform speech-to-text google-speech-to-text-api

2020-04-29T00:30:57.813

0 投票

0 回答

107 浏览

python - 从 Flask Celery 调用 Google Speech to Text API 导致 celery 崩溃

试图将谷歌语音运行到 celery 中的文本，但工作线程正在崩溃。下面是从 celery 任务中执行的代码。

它没有在这条线之后运行-

在 celery 终端中获取以下堆栈跟踪-

我们不能从 celery 或任何其他工作线程调用 Google Speech API 吗？如果我错过了什么，请告诉我。已经提到了这个https://github.com/googleapis/python-speech

python celery speech-to-text google-speech-api google-speech-to-text-api

2020-05-03T16:41:57.847

0 投票

1 回答

201 浏览

node.js - 将 Google-Speech-Text 结果发送到服务器

我正在尝试将这个示例代码生成的脚本从 google 发送到 nodejs 服务器并显示给用户。

我很难从谷歌语音客户端中访问成绩单。还可以参考如何从 webapp 而不是本地麦克风传递麦克风输入，因为目标是通过浏览器从用户那里获取麦克风输入并传递给 google-speech-to-text api。

node.js http google-cloud-platform google-speech-to-text-api

2020-05-04T22:17:22.987

0 投票

1 回答

185 浏览

google-cloud-platform - 如何使用 jq 从 Google Video Intelligence API Speech Transcription JSON 输出中提取多个发言者的成绩单？

我正在测试 Google Video Intelligence 语音转文本，以便用多个扬声器转录播客剧集。

我提取了一个示例并将其发布到一个要点：output.json。

上面的命令将打印出startTime每个段的，以及段本身。jq-输出.json

我的目标是让speakerTag每个段包含在我的 jq 输出中。

这就是我被困住的地方......开始，其中的每个数组都.alternatives[]包含.transcript一个包含该段的字符串.confidence，以及.words[]一个包含该段的每个单词及其说出时间的数组。

JSON 的那部分是我如何获得输出的第一部分。然后，在遍历完成绩单的每一段之后，在底部，它有一个最后一个.alternatives[]数组，包含（再次）整个成绩单中的每个单词，一次一个单词，以及它的 startTime、endTime 和 speakerTag。

这是我的意思的简化示例：

我的想法是以某种方式通过jq-output.json，并将每个与原始视频智能 API 输出中找到startTime的对应匹配。speakerTag

我尝试了一些变体，只打印出开始时间和扬声器标签，然后在下一步中匹配这些值。我的问题是不了解如何仅在 startTime 具有相应的 speakerTag 时打印它。

如评论中所述，最好在一个命令中生成此结果，但我只是试图将问题分解为我可以尝试理解的部分。

google-cloud-platform zsh jq video-intelligence-api google-speech-to-text-api

2020-05-10T13:32:03.447

0 投票

0 回答

91 浏览

google-speech-to-text-api - error.runtime.java.lang.NoClassDefFoundError ，错误处理请求，java.lang.NoClassDefFoundError: com/google/cloud/speech/v1/SpeechClient

我已经在 Eclipse 上成功运行了 Speech to text 独立应用程序，但现在我将其与我的 vxml 应用程序集成并部署在 tomcat 上，但在运行时我面临以下问题。

可能是什么原因。

error.runtime.java.lang.NoClassDefFoundError ，错误处理请求，java.lang.NoClassDefFoundError: com/google/cloud/speech/v1/SpeechClient

Tomcat 版本：8.5 Java 版本：1.8.0.231

谢谢和问候塔伦耆那教

google-speech-to-text-api

2020-05-12T10:54:44.997

0 投票

0 回答

46 浏览

google-speech-api - Google 语音转文本服务的数字转换问题

我们在使用一个号码的 Google 语音转文本服务方面遇到了一些问题（直到现在）：

数字以 ...35984778 结尾，我们正在变成 ...35984 526。最后 3 个数字完全是错误的。口语是德语。

可以通过以下步骤重现该问题：

用户通过电话提供他的电话号码 ...35984778。此数据被发送到 Google 语音转文本 API。
Google 语音转文本服务提供 ...35984 526。

其他数字与 ...09778 之类的结尾一起正常工作。

以下是应用程序日志文件中的一些行：

这个问题也可以用安卓手机重现。我的一位同事用她的手机进行了测试，并且确实出现了同样的问题。此测试仅在手机上进行，而不是在集成了 Google 语音转文本服务的应用程序上进行（如上所述）。

google-speech-api google-speech-to-text-api

2020-05-14T14:02:50.813

0 投票

1 回答

125 浏览

wordpress - 在 WordPress 上集成 Google Speech-to-Text

我计划在 Wordpress 上制作一个直播网站，并且我计划使用 Google Speech-to-Text API 来自动为在 Wordpress 上播放的直播流添加字幕。我不确定这个概念是否完全可以使用 Google Speech-to-Text 来实现，

现在的问题是：

这个概念是否适用于当前的 Google Speech-to-Text API？
如果是，Google Speech-to-Text 是否可以从网站中的实时流视频接收输入（而不是通常从麦克风输入）？
它也适用于直播视频播放吗？
我从哪里开始实施 API？
如果 Google Speech-to-Text 不能用于这样的事情，还有其他选择吗？

我很感激我能得到的任何帮助，因为我开始有点绝望了。如果你们可以使用简单的英语，也很感激，因为它不是我的第一语言。

wordpress wordpress-rest-api google-cloud-speech google-speech-to-text-api

2020-05-14T15:16:15.340

0 投票

0 回答

247 浏览

python - 您可以使用 Selenium + Python 单击 reCapatcha 的“音频挑战”按钮吗？

我遇到的问题是 iframe 元素说它们在尝试引用 xPath 时不能被硒点击

我看到了这个原始的stackoverflow：

找到 reCAPTCHA 元素并点击它——Python + Selenium

但给出的解决方案：

给了我这个：

我不确定这是否可能，但如果是这样，请告诉我或替代方案......

python selenium selenium-webdriver recaptcha google-speech-to-text-api

2020-05-22T03:41:58.657

0 投票

1 回答

61 浏览

google-cloud-platform - gcloud 如何设法使用 svcacc only API？

我试图了解 gcloud 如何管理需要服务帐户才能访问它们的 API，例如使用您的用户（不是 svcacc）凭据访问语音 API 将导致“403 您的应用程序已使用来自 Google Cloud 的最终用户凭据进行身份验证Speech.googleapis.com 不支持的 SDK 或 Google Cloud Shell”。

然而，当我运行gcloud ml speech recognize gs://cloud-samples-tests/speech/brooklyn.flac --language-code=en-US它时，它工作得很好——尽管我没有按照快速入门 [1] 中的描述设置任何专用的 svcacc 密钥，甚至为了确保安全，甚至禁用了项目中的所有服务帐户。

再说一次，

gcloud ml speech recognize gs://cloud-samples-tests/speech/brooklyn.flac --language-code=en-US- 作品
curl -s -H "Content-Type: application/json" -H "Authorization: Bearer "$(gcloud auth application-default print-access-token) https://speech.googleapis.com/v1/speech:recognize -d @sync-request.json根据 [2] 失败，上面出现 403 错误

问题：gcloud 如何在我不提供专用服务帐户的情况下工作？

[1] https://cloud.google.com/speech-to-text/docs/quickstart-gcloud

google-cloud-platform gcloud google-speech-to-text-api

2020-05-27T08:21:07.613

问题标签 [google-speech-to-text-api]

Reference