from nltk.tokenize import RegexpTokenizer
s = "Good muffins cost $3.88\nin New York. Please buy me\ntwo of them.\n\nThanks."
tokenizer = RegexpTokenizer('\w+|\$[\d\.]+|\S+')
tokenizer.tokenize(s)
这段代码会被认为是 O(n) 吗?
根据我从 NLTK 文档中读到的内容,“aRegexpTokenizer使用正则表达式将字符串拆分为子字符串”。我假设使用正则表达式对字符串进行匹配将是 O(1),然后使用 tokenizer.tokenize(s) 将字符串拆分为子字符串将是 O(n),其中 n 是输入。谢谢你的澄清。