4

我有这个地址:

Grimshaw Lane, Bollington, Macclesfield SK10 5JB,

寻找这个地址,我得到这个(从一个 API):

Bollington Wharf, Grimshaw Lane, Bollington, United Kingdom

我知道 preg_match 是如何工作的,但我相信无论如何都必须比较两个相似的文本(相似,不同),并确定它们是否是相同的地址(即使它们有点不同)。

4

3 回答 3

6

显然没有任何解决方案可以让您获得 100% 可靠的结果,但为什么不试试这个:通过 wget 将两个字符串发送到 Google 地图并比较结果。Google 至少投入了数万工时来解决您正在研究的问题,为什么不让他们处理呢?

于 2013-01-07T22:08:57.920 回答
2

我不确定这是否有帮助,但我会考虑使用组合使用explode 在数组中创建多个字符串和levenshtein() 来比较array() 的不同元素。

这取决于您必须比较多少个数组,但如果您只有几个(不是数千个)

伪代码将是这样的:

$search_address = "Bollington Wharf, Grimshaw Lane, Bollington, United Kingdom";

$my_addresses = Array("Grimshaw Lane, Bollington, Macclesfield SK10 5JB", 
                         "Different Lane, YabbaDabbaDoo, Otherfield SK12 6BJ", 
                         ...);
$search_array = explode(',', $search_address);

$best_address = array();
$lowest_compare_value = 1000;
$lowest_compare_address = array();
foreach($my_addresses as $key => $my_address) {
   $current_address_array = explode(',', $value);
   $compare_value = 0;

   foreach(<elements in $my_address>) {

      $lowest_value = 1000;      
      foreach(<elements in $search_array) {
          $new_value = levenshtein($search_element, $my_element);
          if ($new_value < $lowest_value) { $lowest_value = $new_value; }
      }
      $compare_value += $lowest_value;
   }
   if($compare_value < $lowest_compare_value) {
      $lowest_compare_value = $compare_value
      $lowest_compare_address = $my_address;
   }

}

现在您还应该考虑最大合理的 levenshtein 值可能是检查比较地址是否太远。

如前所述,此方法需要时间,不应该用于需要很高速度的应用程序或如果您有许多本地地址。

于 2013-01-07T22:55:39.153 回答
1

我创建了这个实用程序,它已经为我工作了一段时间。当然,如果谷歌地图改变了他们的 API 接口,它就必须被修改。

<?php
// Queries google maps for the address components
function utl_GetAddressComponents( $location )
{
    $components = file_get_contents('http://maps.google.com/maps/api/geocode/json?address='.urlencode($location).'&sensor=false');
    $output = json_decode($components);

    return $output->results[0];
}
?>

这是我用来从命令行运行它的测试文件:

tst_MatchingAddresses.php:

<?php
require_once( "utl_GetAddressComponents.php" );
$addr1 = $argv[1];
$addr2 = $argv[2];

$gmapsResult1 = utl_GetAddressComponents( $addr1 );
$gmapsResult2 = utl_GetAddressComponents( $addr2 );

$gmapsAddr1 = $gmapsResult1->formatted_address;
$gmapsAddr2 = $gmapsResult2->formatted_address;

print("Gmap1: ".$gmapsAddr1." ----- argv[1]: ".$argv[1]."\n");
print("Gmap2: ".$gmapsAddr2." ----- argv[2]: ".$argv[2]."\n");

if ( strcmp($gmapsAddr1,$gmapsAddr2) )
{
    print("==> Addresses match!\n");
}
else
{
    print("==> Addresses DO NOT MATCH!\n");
}
?>

这是一个示例命令行:

php tst_MatchingAddresses.php "1600 Pennsylvania Ave, Washington DC" "1600 Pennsylvania Avenue, 20500"

示例输出:

Gmap1: 1600 Pennsylvania Avenue Northwest, President's Park, Washington, DC 20500, USA ----- argv[1]: 1600 Pennsylvania Ave, Washington DC
Gmap2: 1600 Pennsylvania Avenue Northwest, President's Park, Washington, DC 20500, USA ----- argv[2]: 1600 Pennsylvania Avenue, 20500
==> Addresses match!

注意:您可以将参数输入到file_get_contents,将urlencode等替换为地址,直接进入浏览器,它将显示json结果。

于 2013-06-25T23:59:57.950 回答