-2

我有数百个视频和音频文件的自动机器转录本。我有五种格式的每一份成绩单:JSON、XML、SRT、VTT、TXT。(单击此处查看示例文件。)JSON 和 XML 文件包含最全面的数据,包括扬声器 ID、置信度和时间码。

我正在寻找一种方法来挖掘或搜索这些数据以查找单词和短语。我需要能够提交布尔搜索查询,然后单击结果并以文本结果的时间码播放视频/音频文件。唯一必需的布尔运算符是 NOT、AND、OR(就像在线搜索引擎一样)。搜索示例:( "baseball bat" AND park) OR football

我正在考虑一个相当简单的界面。

基本选项:

  • 搜索框
  • 最小置信水平滑块

高级选项的想法:

  • Speaker:“Bob,Joe,Bill”(即,speaker 必须是其中之一)
  • AND 搜索中单词之间允许的最长时间:XX 秒
  • 精确短语搜索中单词之间允许的最长时间:XX 秒
  • 精确短语搜索中的单词必须具有相同的说话者:开/关
  • AND之间的单词必须具有相同的扬声器:ON/OFF
  • OR 之间的单词必须具有相同的扬声器:ON/OFF
  • AND 之间的单词必须按时间顺序找到:ON/OFF
  • 忽略标点符号:开/关

简单地说,我需要像特工 Ransack 这样的带有时间码的东西,如果可能的话,还需要一些杂项选项。 我知道这是一个非常具体和复杂的要求。 :) 你能给我关于这个想法的任何线索吗?我不想重新发明轮子。哪个软件/命令行程序/引擎最接近能够做到这一切?也许我可以从那里适应它。

谢谢!

4

1 回答 1

0

You can implement such a system on top of Solr/Lucene http://lucene.apache.org/solr, however, you need to get more experience to implement required features.

For open source implementation of speech archival and indexing you can check Matterhorn

You can find details on Matterhorn speech indexing in presentation

However, this is not the only way to implement such functionality, you can also proceed with the language of your choice and simple tools. Ruby/PHP or Node.js will also work here.

于 2015-03-17T08:07:41.787 回答