5

在过去,我制作了一个从字符串生成唯一 id(数字)的函数。今天我发现它并不像应该的那样独特。以前从未见过它的问题。今天,两个不同的输入生成相同的 id(数字)。

我在 Delphi、C++、PHP 和 Javascript 中使用相同的技术来生成相同的 id,因此当项目涉及不同的语言时没有区别。例如,对于 HTML id、临时文件等,这可以方便地进行通信。

一般来说,我所做的是计算一个字符串的 CRC16,加上总和并返回它。

例如,这两个字符串生成相同的 id(数字):

o.uniqueId( 'M:/Mijn Muziek/Various Artists/Revs & ElBee - Tell It To My Heart.mp3' );
o.uniqueId( 'M:/Mijn Muziek/Various Artists/Dwight Yoakam - The Back Of Your Hand.Mp3');

它们都生成 224904 的 id。

以下示例是一个 javascript 示例。我的问题是,我怎样才能避免(稍作改动)它产生重复?(如果您想知道 'o.' 是什么意思,它是这些函数所属的对象):

o.getCrc16 = function(s, bSumPos) {
  if(typeof s !== 'string' || s.length === 0) {
    return 0;
  }
  var crc = 0xFFFF,
    L = s.length,
    sum = 0,
    x = 0,
    j = 0;
  for(var i = 0; i < L; i++) {
    j = s.charCodeAt(i);
    sum += ((i + 1) * j);
    x = ((crc >> 8) ^ j) & 0xFF;
    x ^= x >> 4;
    crc = ((crc << 8) ^ (x << 12) ^ (x << 5) ^ x) & 0xFFFF;
  }
  return crc + ((bSumPos ? 1 : 0) * sum);
}
o.uniqueId = function(s, bres) {
  if(s == undefined || typeof s != 'string') {
    if(!o.___uqidc) {
      o.___uqidc = 0;
    } else {
      ++o.___uqidc;
    }
    var od = new Date(),
      i = s = od.getTime() + '' + o.___uqidc;
  } else {
    var i = o.getCrc16(s, true);
  }
  return((bres) ? 'res:' : '') + (i + (i ? s.length : 0));
};

如何通过对代码稍作改动来避免重复?

4

2 回答 2

5

好吧,做了分配测试并来到这里。由以下内容生成的相对较短的唯一 ID:

o.lz = function(i,c)
{
  if( typeof c != 'number' || c <= 0 || (typeof i != 'number' && typeof i != 'string') )
   { return i; }
  i+='';

  while( i.length < c )
   { i='0'+i; }
  return i;  
}

o.getHashCode = function(s)
{
 var hash=0,c=(typeof s == 'string')?s.length:0,i=0;
 while(i<c) 
 {
   hash = ((hash<<5)-hash)+s.charCodeAt(i++);
   //hash = hash & hash; // Convert to 32bit integer
 }

 return ( hash < 0 )?((hash*-1)+0xFFFFFFFF):hash; // convert to unsigned
}; 

o.uniqueId = function( s, bres )
{ 
  if( s == undefined || typeof s != 'string' )
  { 
     if( !o.___uqidc )
      { o.___uqidc=0; }
     else { ++o.___uqidc; } 
     var od = new Date(),
         i = s = od.getTime()+''+o.___uqidc; 
  }
  else { var i = o.getHashCode( s ); }
  return ((bres)?'res:':'')+i.toString(32)+'-'+o.lz((s.length*4).toString(16),3);  
};

例子:

o.uniqueId( 'M:/Mijn Muziek/Various Artists/Revs & ElBee - Tell It To My Heart.mp3' );
o.uniqueId( 'M:/Mijn Muziek/Various Artists/Dwight Yoakam - The Back Of Your Hand.Mp3');

将产生以下 id:

dh8qi9t-114
je38ugg-120

就我的目的而言,它似乎足够独特,额外的长度也增加了一些独特性。在包含大约 40.000 个 mp3 文件的文件系统上对其进行测试,没有发现任何冲突。

如果您认为这不是要走的路,请告诉我。

于 2013-04-17T21:25:46.800 回答
0

您应该增加散列函数创建的位数。假设您的散列函数在空间上大致一致,您可以从数学上推导出观察到碰撞的概率。

这与生日悖论密切相关。在 CRC16 的情况下,哈希值为 17 位(尽管您的实现可能有错误;我不明白您是如何获得224094的,因为它大于2^17),当您存储更多时,您的冲突概率将超过 50%超过大约 2^8 项。此外,CRC 并不是一个很好的散列函数,因为它用于错误检测,而不是统一散列。

该表显示了基于散列长度的碰撞数学概率。例如,如果您有一个 128 位的哈希键,您可以10^31在碰撞概率增加到超过10^-15. 作为比较,这个概率低于你的硬盘驱动器发生故障,或者你的计算机被闪电击中的概率,所以这是一个安全的数字。

只需根据您计划识别的字符串数量增加您的哈希长度,并选择您可以接受的冲突概率。

于 2013-03-13T04:41:48.230 回答