0

我有 xml 格式的维基百科文章,我只需要为项目提取文章中的单词。我在 XML 解析方面没有经验。是否有提取所有单词的工具或库?

4

2 回答 2

1

Nokogiri是一个功能强大的 Ruby 库,可以满足您的需求。

它允许您遍历 XML 和 HTML 文档并使用 xpath 或 CSS3 选择器来选择某些元素,例如文章文本。

于 2013-11-02T22:25:11.803 回答
1

如果你喜欢 Python,Beautiful Soup是一个不错的选择。

如果您不喜欢 Python,请了解 Python。

于 2013-11-02T22:21:56.547 回答