当单词出现的顺序或次数不重要时,匹配或计算 C# 中两个字符串之间距离的最佳算法是什么?
最佳手段:
- 大多同意人类比赛
- 优雅的
- 高效的
- 可扩展,以便输入字符串可以匹配到可能很大的其他字符串集合
相关问题:
一些注意事项:
- 由于顺序和出现的独立性,输入可以被认为是一组独特的单词,而不是字符数组意义上的字符串
- 不是专门寻找数据库解决方案,虽然会很有趣
- 我太老了,不能成为家庭作业问题;)
当单词出现的顺序或次数不重要时,匹配或计算 C# 中两个字符串之间距离的最佳算法是什么?
最佳手段:
相关问题:
一些注意事项:
这看起来像是应用标准信息检索算法的典型案例。余弦距离是首先想到的,但可能会更适合您的特定情况。这是开始挖掘该路线的一个很好的链接:
http://www.miislita.com/information-retrieval-tutorial/cosine-similarity-tutorial.html
实现示例:
寻找一种称为“双元音素”的方法,我相信对于每个单词的比较来说它是最好的。也适用于不同的语言!很神奇。
如果比较字符串,也许您可以将其与余弦相似度一起使用。会产生完美的结果。