0

我有一个搜索引擎,它通过在倒排索引中查看搜索到的文本来搜索文本并编写相应的网页集,并抛出相应的网页。

现在我想再添加一个功能,就是它会根据颜色进行搜索。

例如,当我搜索“ RED SHOES ”时,它会显示所有倒排索引数据结构中的红鞋。

我对相同算法的看法,

  1. 在不同的地方制作图像的数据结构。
  2. 每当找到图像时,就像夹克的图像一样,因此使用一些颜色查找算法计算其所有颜色。
  3. 将该图像放入所有颜色索引中。

所以这是我的爬行方法,当任何像“红鞋”这样的搜索出现时。它通过查看红色索引找到相应的红色项目。

这是我的算法构建阶段,这就是为什么我没有为上述算法编写任何代码。一旦我得到了正确的方法,我就开始了我的编码阶段。

所以请给我一个建议,

这是一个好的算法吗?或者

是否需要任何优化或更改,如果是,请与我分享/讨论这些更改。

提前致谢。寻找您的善意回应。

4

1 回答 1

1

对于任何可扩展的搜索引擎,如果没有图像分析,您几乎肯定会更好。相反,请考虑通过 eg<img>标签中的属性文本来索引图像。例如,如果图像的替代文本是"red shoes",那么您可以在该文本下索引图像。当您稍后搜索时"red",图像将有机会被返回。

如果您对进行这种图像分析很认真,您可以使用诸如图像魔术之类的库来计算颜色直方图。然后,您可以应用一个聚类模型甚至只是一个决策树来注意特定范围内的大量颜色,并声明一组颜色标签(如"red""rouge""vermillion"等),然后将图像索引在这些标签下。

如果您感到非常疯狂,您可以对直方图本身进行余弦相似度。这将让您提交图像作为查询。不过,不知何故,我认为这不是你的想法。

于 2013-02-28T04:06:10.407 回答