0

我知道这是一个很长的镜头,但无论如何我都会问。

我想对某些文本运行过滤器,并且我想删除英语中出现次数最多的单词,例如“The”、“a”、“and”、“or”等...

这个挑战是否在某个地方得到了解决,这样你就可以获得一个很好的此类单词列表?

4

3 回答 3

1

您正在寻找的官方术语是“停用词”。对于英语,我经常使用 Solr 搜索引擎中的 stopwords.txt 列表:

https://code.google.com/p/solrmarc/source/browse/trunk/test/data/smoketest/solr/conf/stopwords.txt?r=1333

于 2012-05-28T01:44:01.043 回答
0

我会使用 str_replace()

例子:

str_replace("and", "", $text);
于 2012-05-28T01:39:44.167 回答
0

正则表达式怎么样?查看此页面的“单词”部分,http://www.roscripts.com/PHP_regular_expressions_examples-136.html。有一些示例正则表达式,包括对单词进行操作的模式。

//Words: Whole word
//Match one of the words from the list
'\b(?:word1|word2|word3)\b'
于 2012-05-28T01:22:22.330 回答