python - 使用 nltk 解析维基百科停用词 html

Question

与这个问题相关，我正在开发一个程序来提取维基百科实体的介绍。正如您在上面的链接中看到的，我已经成功查询了 api，现在专注于处理 api 调用返回的 xml。我使用nltk来处理我使用的 xml

wikiwords = nltk.word_tokenize(introtext)
for wikiword in wikiwords:
    wikiword = lemmatizer.lemmatize(wikiword.lower())
    ...

但是有了这个，我最终录下了像</, /p, <, ... 这样的词。因为我没有使用 xml 的结构，所以我想简单地忽略所有 xml 就可以了。是否有 nltk 工具或是否有可用的停用词列表。我只想知道，最佳做法是什么？

score 2 · Accepted Answer

您没有指定您使用的确切查询，但您现在拥有的似乎是 HTML，而不是 XML，它是您从 XML 响应中提取的。

如果你想从 HTML 代码中去掉所有的 HTML 标签，只留下文本，你应该使用 HTML 库，比如BeautifulSoup。

1 回答 1