问题标签 [hamming-distance]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
vector - 相似距离度量
像这样的向量
需要计算它们之间的相似度。v1
和之间的汉明距离v2
是 4 和之间v1
的距离v3
也是 4。但是因为我对组合在一起的“1”组感兴趣,所以与当时的情况v2
更相似。v1
v3
是否有任何距离指标可以在数据中捕捉到这一点?
这些数据及时代表了房屋的入住率,这就是为什么它对我很重要。“1”表示占用,“0”表示未占用。
algorithm - 消除消息中的序列
我有一个奇怪的通信通道,我需要检测错误并消除通道中的某些序列。
每条消息长 12 位,分成 3 个半字节(每个 4 位)。我需要从中提取至少 450 个不同的代码,这样我的汉明距离就可以达到 3。
但是,我不能让两个半字节序列相同,因此以下序列无效:
此外,消息可以不间断地相互跟随,因此一个序列的开头不能与最后一个序列的结尾具有相同的第一个半字节:
但是以下序列很好:
以下一系列消息很好:
我的第一个想法是为我的消息使用 9 位,分成三个 3 位部分作为每个半字节的最高位:
然后设计一个 512 条目表,给我三个要填充的位c
,这将创建汉明距离,同时消除麻烦的序列。
但是,这将在低端嵌入式处理器上运行,如果我可以使用算术动态生成c
位,它将节省内存(以换取更多的处理器时间),这在这种情况下更有价值。
有没有我可以执行的一些数学运算可以在没有表格的情况下解决这个问题?
或者,是否有另一种符合要求的数学打包方法?
c++ - Hamming weight for vector C++
I'm working on a the Hamming weight for a vector and what I do is count in linear way all the 1 in the vector, is there any more efficient way?
#xA;vector - 做k的快速方法意味着在c ++中对二进制向量进行聚类
我想将二进制向量(数百万个)聚集成 k 个簇。我正在使用汉明距离来寻找与初始簇最近的邻居(这也很慢)。我认为 K-means 聚类并不适合这里。问题在于计算一些初始聚类中心的最近邻居(它们是二进制向量)的平均值,以更新质心。
第二种选择是使用 K-medoids,其中新的聚类中心是从最近的邻居之一(与特定聚类中心的所有邻居最近的邻居)中选择的。但发现这是另一个问题,因为最近邻居的数量也很大。
有人可以指导我吗?
c++ - Object Detection with Hamming distance
I am using FAST and FREAK to get the descriptors of a couple of images and then I apply knnMatch with a BruteForceMatcher matcher and next I am using a loop to separate the good matches:
I think the problem could be the good matches search method, because using it with the FlannBasedMatcher works fine but with the BruteForceMatcher very weirdly. I'm suspecting that I may be doing a nonsense with this method because the Hamming distance uses binary descriptors, but I can't think of a way to adapt it!
Any links, snippets, ideas,... please?
c - 使用 SSE 计算多个字符串的汉明距离
我有n
(8 位)字符串,它们都具有相同的长度(例如m
),以及另一个s
长度相同的字符串。s
我需要计算到其他每个字符串的汉明距离。在纯 C 中,类似:
我想将 SIMD 指令与 gcc 一起使用来更有效地执行此类计算。我已经读到PcmpIstrI
SSE 4.2 中可能很有用,并且我的目标计算机支持该指令集,所以我更喜欢使用 SSE 4.2 的解决方案。
编辑:
我编写了以下函数来计算两个字符串之间的汉明距离:
所以我可以通过以下方式解决我的问题:
这是我能做的最好的还是我可以使用比较的字符串之一总是相同的事实?此外,我是否应该对阵列进行一些对齐以提高性能?
另一个尝试
根据 Harold 的建议,我编写了以下代码:
但我无法__m128i
使用psadbw
. 任何人都可以帮我吗?
c# - 可以从程序 GUID 获得哪些信息
我正在构建一个从 xml 文档馈送的自定义安装程序...
我知道大多数程序员不再自己构建,但这就是我被分配的具体内容,所以请和我一起工作。安装程序需要卸载旧版本的程序才能完成工作。
我可以获得注册表卸载字符串没问题,问题是构建指令文件的用户并不总是会有一个确切的显示名称。
所以...
我正在使用 Levenshteins 差异来获得 70% 以上的可能匹配,这让我容易出错。纠正他们是希望我可以反序列化 GUID 以获取名称并确保我有正确的名称。或类似的东西。
有人可以让我知道在哪里看,或者任何关于如何根据 levenshteins 差异(当单词/短语长度相同时用 Hamming 差异确认)的相似性小于 100% 时如何进行冗余检查的建议
笔记:
版本可能不知道它是删除所有旧版本
发布者在所有方面都是相同的
安装位置应该是网络但不保证用户喜欢在本地复制
java - 通过Java中给定的最大汉明距离(不匹配的数量)获取所有字符串组合
是否有一种算法可以通过给定的最大允许位置数量(最大不匹配,最大汉明距离)生成字符串(DNA序列)的所有可能字符串组合?
字母表是 {A,C,T,G}。
字符串AGCC
和最大数量的 Mismatches示例2
:
一种可能的方法是生成一个具有给定字符串的所有排列的集合,迭代它们并删除所有具有更大汉明距离的字符串。
这种方法非常消耗资源,给定的 20 个字符的字符串和 5 的最大汉明距离。
是否有另一种更有效的方法/实现?
image - 2个二进制矩阵之间的pdist
如何计算两个二进制矩阵之间的汉明距离?
例如:
非常感谢!
mysql - 如何在mysql数据库中找到相似的二进制字符串?
我有一个带有二进制这些字符串的数据库
所以,我想找出什么记录有类似的二进制字符串:1111111111111011000100110001100100010000000000000011000000001100
可以看到,记录号 1 的相关性是 98%。记录号 2 的相关性为 70%,记录号 3 的相关性仅为 45%。
这是一个巨大的数据库(200.000 条记录)......