与这个问题相关,我正在开发一个程序来提取维基百科实体的介绍。正如您在上面的链接中看到的,我已经成功查询了 api,现在专注于处理 api 调用返回的 xml。我使用nltk来处理我使用的 xml
wikiwords = nltk.word_tokenize(introtext)
for wikiword in wikiwords:
wikiword = lemmatizer.lemmatize(wikiword.lower())
...
但是有了这个,我最终录下了像</
, /p
, <
, ... 这样的词。因为我没有使用 xml 的结构,所以我想简单地忽略所有 xml 就可以了。是否有 nltk 工具或是否有可用的停用词列表。我只想知道,最佳做法是什么?