我正在寻找可以理解自然语言语义(当然在某种程度上)的搜索引擎,或者只是一种技术,以便找到相应的图像。
反过来也可以。
例如:一个软件,可以区分两个男人拥抱和两个男人摔跤的罗马风格。或者 - 输入:一张桌子的照片,上面有一台笔记本电脑、一杯咖啡、魔方和一个星球大战玩具,它会产生输出:程序员办公桌。
我正在寻找可以理解自然语言语义(当然在某种程度上)的搜索引擎,或者只是一种技术,以便找到相应的图像。
反过来也可以。
例如:一个软件,可以区分两个男人拥抱和两个男人摔跤的罗马风格。或者 - 输入:一张桌子的照片,上面有一台笔记本电脑、一杯咖啡、魔方和一个星球大战玩具,它会产生输出:程序员办公桌。
我在工作中遇到了Metamind.io,它使用一些深度神经网络魔法以正确的方式识别和标记图像。
您可能会从他们训练有素的分类器中获得良好的结果,或者训练您自己的分类器。
在这里聚会很晚,但我认为这可能会帮助其他人寻找同样的东西。
在基本图像分析方面,该领域最近取得了突飞猛进的发展,并且有很多人提供此功能。质量差异很大,取决于提供者的训练程度和语料库的规模。我合作过的几个例子是 IBM 和 Clarifai,但这是一个蓬勃发展的领域。
他们不会给出您所追求的上下文类型。反正还没有。他们不太可能区分两个男人拥抱和两个男人摔跤(嘿,作为一个人,有时谁能分辨出两者的区别?)。然而,他们可能会挑选一张桌子、一杯咖啡、一本书等。
视频搜索和上下文化完全是另一个挑战,它还处于起步阶段。至少有一家公司在这一领域取得了重大进展(完全免责声明,我在那里工作)。Movida Labs分析并索引视频中的许多因素以提供大量上下文,因此在您的示例中,它很可能表明这是一个有两个男人摔跤的视频。我不得不承认,这不是因为技术上的某种突破(尽管它非常先进),而是因为整个视频都提供了这种背景。