我有一个大文本,我想解析这个文本并识别(例如,这个文本中存在的维基百科条目)。
我想过使用正则表达式,例如:
pattern='New York|Barak Obama|Russian Federation|Olympic Games'
re.findall(pattern,text)
...等等,但这将是数百万个字符,并且 re 不接受...
我想到的另一种方法是标记我的文本并搜索每个标记的维基百科条目,但这看起来效率不高,特别是如果我的文本太大......
任何想法如何在 Python 中做到这一点?