我知道这是一个很长的镜头,但无论如何我都会问。
我想对某些文本运行过滤器,并且我想删除英语中出现次数最多的单词,例如“The”、“a”、“and”、“or”等...
这个挑战是否在某个地方得到了解决,这样你就可以获得一个很好的此类单词列表?
我知道这是一个很长的镜头,但无论如何我都会问。
我想对某些文本运行过滤器,并且我想删除英语中出现次数最多的单词,例如“The”、“a”、“and”、“or”等...
这个挑战是否在某个地方得到了解决,这样你就可以获得一个很好的此类单词列表?
您正在寻找的官方术语是“停用词”。对于英语,我经常使用 Solr 搜索引擎中的 stopwords.txt 列表:
我会使用 str_replace()
例子:
str_replace("and", "", $text);
正则表达式怎么样?查看此页面的“单词”部分,http://www.roscripts.com/PHP_regular_expressions_examples-136.html。有一些示例正则表达式,包括对单词进行操作的模式。
//Words: Whole word
//Match one of the words from the list
'\b(?:word1|word2|word3)\b'