0

这个问题相关,我正在开发一个程序来提取维基百科实体的介绍。正如您在上面的链接中看到的,我已经成功查询了 api,现在专注于处理 api 调用返回的 xml。我使用nltk来处理我使用的 xml

wikiwords = nltk.word_tokenize(introtext)
for wikiword in wikiwords:
    wikiword = lemmatizer.lemmatize(wikiword.lower())
    ...

但是有了这个,我最终录下了像</, /p, <, ... 这样的词。因为我没有使用 xml 的结构,所以我想简单地忽略所有 xml 就可以了。是否有 nltk 工具或是否有可用的停用词列表。我只想知道,最佳做法是什么?

4

1 回答 1

2

您没有指定您使用的确切查询,但您现在拥有的似乎是 HTML,而不是 XML,它是您从 XML 响应中提取的。

如果你想从 HTML 代码中去掉所有的 HTML 标签,只留下文本,你应该使用 HTML 库,比如BeautifulSoup

于 2013-01-26T15:35:05.630 回答