我需要计算文档中术语的术语频率……我所做的只是“计算该术语在该文档中出现的次数”……如果该术语出现了 138 次,我将 tf 值设为 138 ....mi 做对了..?? 当我在某处读到术语频率(tf)=术语计数/文档中的单词数...如果这是真的我如何计算文档中的单词数..是一些正则表达式吗???
请回复..谢谢你
在大多数正则表达式实现中,都有单词边界的概念,\b
. 因此,匹配一个单词的正则表达式可能如下所示\b(\w+)\b
:
基本上,正则表达式所说的是:匹配一个单词边界,然后至少匹配 1 个单词字符 ( \w+
),然后再匹配一个单词边界。括起来的括号只是将匹配的单词添加到一个组中,以便您以后可以提取它。在您的情况下,这可能不是必需的,因此您可以根据需要删除它们。
我希望这对你有一点帮助。
你没有提到你使用什么语言/程序。大多数文本编辑器会告诉您文档中有多少字。在 unix 中,您可以使用“wc -w 文件名”命令。