问题标签 [keyword-spotting]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
ios - 使用 OpenEars + Rejecto 识别 iOS 关键字
找了一个关键词定位api,发现最有前途的是OpenEars + Rejecto插件。我需要识别一个非常简单的字典,例如Up、Down、Left、Right。按照步骤在此处运行示例项目。-
http://www.politepix.com/rejecto/
但无论我说什么,该应用程序总是以相同的顺序识别相同的单词。我确定我错过了一些明显的配置项目的东西,但不知道是什么。任何人都成功运行了示例Rejecto项目,或者可以为我指出一个更好的 sdk 用于关键字发现的方向?
android - PocketSphinx 在 Android 中自己的关键字发现
我想为 Android 应用程序实现基于 PocketSphinx 的关键字定位。
PocketSphinx 对我来说是新的。我从他们的仓库中的 PocketsphinxAndroidDemo 开始。然后我在 Eclipse 中导入了项目,并在我的手机上构建并部署了演示应用程序。该演示识别命令存款和取款和数字罚款。我还没有安装任何其他库或工具。
现在我想识别我自己的关键字并遵循 CMUSphinx 教程。因此,我使用“Sphinx 知识库生成器”创建了自己的 DIC 和 LM 文件,并已包含在项目的 assets 子文件夹中。我使用的语料库:
我已修改 SpeechRecognizer 以下内容:
然后我再次启动该应用程序并收到以下错误:
和
我知道“退出”是以前字典里的一个词。
我必须在语法文件中修改什么?
我还阅读了本教程http://www.aiaioo.com/cms/index.php?id=28并从那里使用了声学模型和语音词典。我再次修改了 SpeechRecognizer。当应用程序启动时,我看到资源已正确加载。但后来我得到了同样的错误。
有人可以告诉我问题是什么吗?我必须做哪些步骤才能让我的点球运行?
android - PocketSphinx for Android 与谷歌语音识别冲突
我已经在我的应用程序中实现了 pocketsphinx 关键字发现工具,并让它在粘性服务中运行。关键字现场效果很好!问题是我在运行时无法再使用与谷歌语音相关的任何东西(导航、相机、视频、语音转文本)。有人对如何让他们一起玩得很好有什么建议吗?
甚至是某种与谷歌语音相关的接收器,以便我知道取消狮身人面像?
speech-recognition - 使用 HTK 进行关键字定位
最近,我专注于实施关键字定位系统的项目。我之前使用 HTK 进行语音识别。现在我想知道是否可以使用 HTK 实现我的关键字定位器?
php - 如果存在第二个名称,则使用正则表达式在字符串中查找名称而不包括名字
我有一个字符串和一个名称列表,我将字符串与preg_match_all
返回匹配项进行比较。但是,在姓名列表中,一些姓名仅是名字或姓氏,而另一些则两者都是。请参阅下面的示例。
上面带有我当前表达式的示例返回所有名称。这不是我想要的。
我想要返回的东西:乔恩·雪诺、拉娜·史密斯、拉娜、梅根。
我不想退货:乔恩,史密斯
ios - iOS - 有没有办法从用户的文本输入中检测流行的关键字并按流行度或趋势排序?
我正在构建一个允许用户输入 UITextInput 字段的应用程序。我希望能够扫描他们输入的内容并提取可能的关键字/短语,这些关键字/短语可用于填充应用程序中的其他内容,并按流行度/趋势对它们进行排序。
例子:
- 用户在输入中键入以下字符串:“我的兄弟姐妹太尴尬了,我等不及他们让我一个人呆着! ”
- 预期的关键字提取:“兄弟姐妹,尴尬,孤独,...... ”
- 按流行度/趋势排序的预期关键字:“尴尬,兄弟姐妹,孤独,...... ”
是否有用于此的 SDK 或原生 iOS 解决方案?
ios - 将识别的语音与已知文本进行比较的最佳方法
给定我希望用户阅读(或多或少准确)的已知手稿(文本),识别用户在手稿中的进度的最佳方法是什么?
当我在 iOS 上寻找特定的解决方案时,我也对更一般的答案感兴趣。
iOS 提供了一个名为Speech的语音识别框架,我可以使用它来识别任何语音。我目前的方法是使用该框架的字符串结果将它们与手稿进行匹配。但是,在我看来,这似乎有相当多的开销,并且当我第一次向语音识别器提供预期的单词以便它“知道”要听什么时,它会节省资源并提高精度。
例如,当手稿中的下一个单词是“fish”时,我不需要语音识别器在整个英语词典中搜索与录制的音频最匹配的单词——我只需要得到一个概率值多么可能就是用户刚才说的“鱼”。
我认为这与关键词发现非常相似,只是我不仅发现了几个关键词,而且发现了整个手稿中的单词。
不幸的是,我无法在 iOS 上找到这样的 API。有没有比上述方法更好的方法来实现这种“语音跟踪”?
machine-learning - Top-k 和平均平均精度之间的关系是什么?
有人可以帮我吗?我在一篇文章中发现了这篇文章:“网络特征图之间的相似性是使用欧几里得距离计算的。然后,根据 mAP 选择 Top-k 候选生成相关图像候选的排名列表,其中 k= {5, 10, 25, 50, 100}" 以评估模式发现阶段。我的问题是,在单词识别任务中,如果我们有一组使用特征向量描述的查询图像,然后我们想要进行检索阶段,我们会将每个查询向量与所有候选数据集进行比较然后对匹配结果进行排名。如果我们现在想评估我们的准确度系统,我们将计算例如将排名列表与地面实况结果文件进行比较的 mAP。
deep-learning - 模型建议:关键字发现
我想预测演讲中“重复”一词的出现次数以及该词的大致持续时间。对于这个任务,我计划建立一个深度学习模型。我有大约 50 个正面和 50 个负面的话语(我无法收集更多)。
最初,我搜索了任何用于关键字发现的预训练模型,但我找不到一个好的模型。
然后我尝试了语音识别模型(Deep Speech),但由于我的数据遵循印度口音,它无法预测确切的重复词。此外,我认为为这项任务选择 ASR 模型将是一种过度杀伤力。
现在,我将整个音频分成 1 秒的块,重叠 50%,并尝试在每个块中进行二进制音频分类,即该块是否包含“重复”一词。为了构建分类模型,我计算了 MFCC 特征并在其之上构建了一个序列模型。似乎没有什么对我有用。
如果有人已经处理过此类任务,请为我提供正确的方法/资源来为该任务构建 DL 模型。提前致谢!
keyword - Stm32CubeIde-SensorTIleBox-微控制器上的关键字定位
我正在 Sensortile 框中进行关键字定位。我已经完成了 Tflite 模型并转换为 C 代码。我想在识别语音时使用 LED,但我不知道在哪里编写 LED 的代码。任何人都可以帮助我在 X-Cube-AI 中执行的位置。