我必须在我的文本文件中找到 wordnet 的搭配。因为搭配不止一个单词或具有特殊字符,例如 ' - 。我已经存储了此类字符串/搭配的列表。现在在我的文本文件(来自语料库)中,我需要确定是否出现任何这些字符串。问题是由于我使用 POS 标记器,多词搭配被视为单独的单词,所以我需要首先从我的搭配列表中获取一个搭配,查找它是否出现在文本中,然后用一些特殊字符替换搭配中的空格,例如_ 所以 pos 标注器认为它是一个。我在列表中每个搭配的文本文件内容上尝试了 preg_replace,但我的浏览器崩溃或显示内存过载错误
$m=file_get_contents ('sample.txt');
$comp=file('collocation_list.txt');
for ($x=0; $x<= count($comp); $x++)
{
$comp[$x] = trim(strtolower($comp[$x]));
$c =$comp[$x];
$rep=str_replace(" ","_",$c);
$rep=" ".$rep." ";
$m =preg_replace($c,$rep,$m);
}