问题标签 [hash-function]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
algorithm - 包含电话号码的庞大数据集的散列和加密技术
问题描述: 我正在处理一个高度敏感的数据集,其中包含人们的电话号码信息作为列之一。我需要应用(对它们进行加密/散列函数)将它们转换为一些编码值并进行分析。它可以是单向散列 - 即,在处理加密数据后,我们不会将它们转换回原始电话号码。本质上,我正在寻找一个匿名器,它可以获取电话号码并将它们转换为一些我可以进行处理的随机值。建议执行此过程的最佳方法。欢迎就使用的最佳算法提出建议。
更新:数据 集的大小 我的数据集非常大,有数百 GB。
更新:敏感 敏感,我的意思是电话号码不应该是我们分析的一部分。所以,基本上我需要一个单向散列函数但没有冗余 - 每个电话号码应该映射到唯一的值 - 两个电话号码应该不映射到相同的值。
更新:实施?
感谢您的回答。我正在寻找详细的实现。我正在通过 python 的 hashlib 库进行散列,它是否一定会执行您建议的相同步骤?链接在这里
你能给我一些示例代码来实现这个过程,最好是在 Python 中吗?
c++ - 哈希函数不严格依赖于字符串键的大小
我正在制作一个哈希表,我需要制作一个不仅取决于字符串键的大小的哈希函数,因为元素周期表元素只有 1 到 3 个字符。如何创建一个散列函数,它可能基于字符串的每个字符的字节数为我提供一个索引?
hash - 碰撞哈希函数
大家好,我的哈希函数有一个大问题。我试图解释我的问题:
我有一组字符,我想做一个哈希函数,因为我想用哈希集更改集合,对于每个字符我都有一个索引,所以我现在做什么:
pair --> index p = 1 index a = 2 index i = 3 index r= 4---> 所以我的哈希返回 1234
但如果例如我有
所以 --> 索引 s = 12 索引 o = 34 ---> 哈希 1234
碰撞!!!!
PS:我不能按字母数字排序我的字符....
那么,有没有人可以帮助我?多谢 :)
algorithm - 获得一个 k-wise 独立散列函数
我需要使用属于 k-wise 独立散列函数家族的散列函数。C、C++ 或 python 中任何库或工具包上的任何指针,它们可以生成一组 k-wise 独立散列函数,我可以从中选择一个函数。
背景:我正在尝试在此处实现此算法:http ://researcher.watson.ibm.com/researcher/files/us-dpwoodru/knw10b.pdf用于不同元素问题。
我看过这个线程:生成 k 成对独立哈希函数,其中提到使用 Murmur 哈希生成成对独立哈希函数。我想知道 k-wise 独立散列函数是否有类似的东西。如果没有可用的,我是否有可能构造这样一组 k-wise 独立散列函数。
提前致谢。
c - 以字符串和整数为键的哈希表的哈希函数
我正在寻找一个可以在哈希表实现中使用的好的哈希函数。问题是我想在我的哈希函数中同时提供字符串和整数作为参数(键) 。
我有一个包含约 500 个数据的 txt 文件,其中每一个都包含整数和字符串(最多 15 个字符)。所以,我想做的事情是选择这些整数/字符串之一并将其用作我的哈希函数的键,以便将我的数据放入“正确的”存储桶中。
有什么好的功能可以做到这一点吗?
谢谢 :)
c++ - hash_multimap 发现无法正常工作
我一直在尝试使用 hash_multimap 一段时间,但是即使我知道它找到了匹配的键,find 方法仍然给我一个指向容器末尾的迭代器。让我感到困惑的是,我之前在不同的项目中使用过相同的代码,它运行良好,但现在它正在发挥作用。我知道它找到东西的原因是因为我在散列函数和散列比较中放了一些 cout,这告诉我找到了一个键并且它与我给 hash_multimap::find 的内容相匹配,但它仍然是给了我一个迭代器。
首先是头文件
和源文件
请注意,我已经从上面的块中删除了很多方法以节省空间,因为它们与手头的问题无关。但是我把他们的声明留在了头文件中。我也知道我正在使用丑陋的模板做一些事情。只是暂时处理它。
现在我将详细介绍代码中发生的事情以及问题所在。在getlocalobjects 方法中,调用“exists(key)”方法来判断hash_multimap 是否有一个元素提供了key。我知道它确实找到了一些东西,因为正如我上面提到的,因为我将 cout 放在 equal_to 函数中以告诉我它何时使用以及它的结果是什么。
它始终告诉我是的(通过 equal_to 调试)它找到了一些东西,但存在的方法仍然会返回 false。这让我相信 hash_multimap::find 中可能存在一个错误,因为这意味着即使它找到了一些东西,它也会给我一个 hash_multimap::end 的迭代器
所以我的问题是我在使用多重地图方面做错了吗?我的特征结构是否没有多图正常工作所需的东西
编辑和我忘记的 hashKey 的实现包括
标题
和来源
编辑 [SOVLED] 我将 hash_multimap tp 更改为 unordered_multimap,现在它可以工作了,所以最初的怀疑是正确的,此时 hash_multimap 被窃听,它的 find 方法总是会在最后给出一个迭代器。请注意,我使用的是 Visual Studio C++ 2010,它可能不会在其他平台或其他编译器上被窃听,但在我的情况下它无疑是被窃听的
data-structures - 哈希函数 h(k) = k mod m
对于一般整数键和大小为 M 的表,素数:
• 一个良好的快速通用哈希函数是 H(K) = K mod M
有人可以解释一下 H(K) = K mod M 的含义或它是如何工作的吗我真的很困惑这个哈希函数应该代表什么
hash - 哈希函数中的碰撞概率是多少?
我想问一下Hash Function中的碰撞概率?
谢谢
c - int => int 映射的哈希函数
我正在用 C 为自己编写一个哈希表实现。我将使用完美哈希或 Cuckoo 哈希,我还没有决定。
但是,我不是哈希函数/系列方面的专家。由于我将无符号 32 位整数映射到无符号 32 位整数,任何人都可以向我推荐哪些函数可能对我最有用,以及在哪里可以找到它们的 C 实现?
我正在优化性能。
谢谢!