4

我有一个搜索引擎的想法,它可以像现在其他搜索引擎一样索引 web 项目,但只存储文件的标题、url 和内容的哈希值。

这样,如果您已经拥有它们并且不知道它们来自哪里或想知道某些东西出现的所有地方,那么在网络上很容易找到它们。

对于图像、可执行文件和档案等非文本项目更有用。

我想知道是否已经有类似的东西了?

4

5 回答 5

4

查看关于 localitysensitive hashing 的维基百科页面麻省理工学院的一项研究也提供了一个很好的页面。

一般来说,有几种可用的风格:字符串散列(例如simhash)、集合或 0/1 特征(例如min-wise hashes)以及实向量。

到目前为止,数值散列的主要技巧基本上是降维。对于字符串,我们的想法是提出一种在面对微小编辑时仍能保持稳健的表示。

我也在这个领域做一些研究,虽然我猜 stackoverflow 可能不是适合新生工作的地方。

于 2008-09-08T23:50:30.447 回答
1

好吧,对于图像,有http://tineye.com,它会为你找到相似的图像。

于 2008-09-08T23:11:55.843 回答
1

这个问题似乎集中在精确匹配哈希上,我们比最近邻方法更好地理解它,并且确实值得,特别是如果人们可以通过这种方式共享标签和其他元数据。

正如@rjmunro 所指出的,基于哈希的搜索在 P2P 世界中是一个流行的想法,Bitzi 几乎做到了这一点,尽管他们已经关闭并且他们的 Bitpedia(数字媒体百科全书)不再托管在那里,尽管其中一些至少在 Archive.org 上仍然可用。

Bitzi 还制作了Bitcollider (SourceForge.net)Magnet URI 方案等软件,该方案允许通过哈希指定文件,因此是基于内容的标识符。如该维基百科页面所述,各种应用程序支持通过 Magnet URI 在各种数据库中进行搜索。

同样的想法在密码破解场景中很流行 - 参见例如findmyhash - 使用在线服务破解哈希的 Python 脚本等。

更进一步,我认为如果有数据库和在线存储库通过哈希识别内容并从各个角度提供有关内容的标签和其他元数据,那就太好了。然后我可以让我的音乐收藏保持原始状态(不会浪费备份空间和时间),但仍然可以自己标记它们并通过外部标记数据库添加其他元数据。如果我的应用程序知道如何获取标签,它似乎比我们修改和复制大文件只是为了将标签从我的桌面移动到我的手机的当前系统要好得多。

请参阅Metadata Independent Hashing for Media Identification & P2P Transfer Optimization (pdf) 中的相关想法。

于 2014-06-21T23:50:20.443 回答
0

这不是一个坏主意。有时我发现自己偶然发现了一些文件,试图找出它的来源:) 但是你将如何跟踪项目的来源?内容可以通过多种方式获取——网络浏览器、下载管理器,只需从网络共享中复制即可。

于 2008-09-08T23:18:37.510 回答
0

如果我理解你的建议是正确的,http://bitzi.com/已经这样做了一段时间。

于 2008-09-09T00:05:08.540 回答