2

我正在用 java 做一个项目,我必须在其中处理一个维基百科转储文件。我正在寻找一个库来提取维基百科文章中的关键字......基本上我想阅读维基百科 xml 转储中的每个标签页,并将其与主题和类别列表进行比较,如果正确,选择它并添加我的结果。我对阅读转储或编写维基百科结果不感兴趣,只是我想知道任何能让我在维基百科文章的标题和文本中按主题搜索的库......例如......如果输入是“狗”我想要关于狗的维基百科文章,如果可能的话,狗类别下的任何页面。

是否为通用目的而不是为维基百科指定库并不重要。我需要将 wikitext 作为参数并收到一个关键字列表,包括类别...我发现了一些运行良好的维基百科库,例如Wikipedia-MinerJava Wikipedia Library,但首先我需要安装 mysql 和我想分析文本而不将其保存到数据库中。

任何形式的帮助或建议都会受到欢迎。:)

4

1 回答 1

2

看起来这是你最好的选择:Java Wikipedia Library

于 2009-08-22T06:35:59.357 回答