1

我正在编写一个用户应用程序,它将用户的输入作为当前打开的维基百科页面。我编写了一段代码,将其作为模块的输入,并使用网络抓取和自然语言处理生成与该特定文章相关的关键字列表。

除了我已经确定的关键字之外,我想通过提供一组用户可能感兴趣的相关主题来扩展应用程序的功能。维基百科提供的任何 API 都可以解决问题。如果没有,任何人都可以指出我应该研究的内容(以防我必须从头开始编写代码)。此外,我将欣赏任何用于识别任何算法的指针,这些算法将训练机器识别主题图。我不是在寻找任何论文,而是在寻找基本的东西的实际实现

所以总结一下,

  1. 我需要一种方法来查找与维基百科中当前文章相关的主题(类别也可以)
  2. 我还将欣赏一个用于训练机器识别通常相关和聚集的主题的示例算法。

附言。请具体一点,因为我已经研究了许多明显的可能性,谢谢

4

2 回答 2

0

“另见”是维基百科页面中经常出现的部分。它的结构类似于下面的示例,来自 [[Article (publishing)]]:

==See also==
* [[Article directory]]
* [[Electronic article]]

然后,您应该解析 wikicode(您可以通过转储或 Mediawiki API 获取,如前面的答案中所暗示的),并使用提到的文章。

另一种方法是直接使用 Wikipedia 类别,有相应的 API

于 2014-12-18T22:59:13.700 回答
0

如果需要,您可以抓取类别。如果您正在使用 python,您可以直接从他们的 API 读取 wikitext,并使用 mwlib 解析文章并找到链接。

一种更有趣但更难实现的方法是创建相关术语的集群,并根据从文章中提取的术语列表,找到最接近它们的术语。

于 2012-03-18T18:24:16.923 回答