我在 php 中有一个长字符串,由不同的段落组成,每个段落都有不同的句子(它几乎是一个小文档)。我想通过删除任何不相关的符号/字符将整个内容拆分为单词。例如,删除逗号、空格、换行符、句号、感叹号和任何可能不相关的内容,以便仅以单词结尾。
有没有一种简单的方法可以一次性做到这一点,例如使用正则表达式和preg_split
函数,还是我必须多次使用explode
函数:例如首先获取所有句子(通过删除'.','! ' ETC)。然后通过删除','和空格等来获取单词。
我不想explode
对所有不相关的可能字符使用该函数,因为它很耗时,而且我可能会不小心忽略了所有这些可能的字符。
我想找到一种更自动的方法。我认为一个定义良好的正则表达式可能会完成这项工作,但我需要再次指定所有可能的字符,而且我不知道如何在 php 中编写正则表达式。
那么你有什么建议给我呢?