我有一堆域,我想将它们分解成单词。我从 wordlist.sourceforge.net 下载了 wordlist 并开始编写暴力类型的脚本来通过字典列表运行每个域。
问题是我不能让它产生足够好的结果。我做的简单脚本如下所示:
foreach($domains as $dom) {
$orig_dom = $dom;
foreach($words as $w) {
$pos = stristr($dom,$w);
if($pos) {
$wd[$orig_dom][] = $w;
}
}
}
$words 是字典数组,domains 只是一个域名数组。
结果如下所示:
[aheadsoftware] => Array
(
[0] => ahead
[1] => head
[2] => heads
[3] => soft
[4] => software
[5] => ware
从技术上讲,它可以工作,但我不知道如何编码的技巧是让脚本理解如果你匹配'ahead',你就没有'head'或'heads'了。它还应该理解选择“软件”而不是“软件”和“软件”。是的,我知道,语言计算的世界是纯粹的痛苦;)