1

是否存在可以解析文本并输出该文本的工具,超链接到维基百科条目以获取感兴趣的单词?

例如,我想要一个可以变成这样的工具:

排序列表上最流行的搜索算法是二分搜索。

进入:

排序列表上 最流行的搜索算法二分搜索

如果 Wikipedia 有一个 API 可以做到这一点,那就太好了,因为他们最有能力确定什么是“感兴趣的词”。

在我的示例中,我只是将所有直接链接到条目的组合链接,除了 The 和 most。

4

3 回答 3

1

您有两个不同的问题需要在这里解决:

  1. 决定哪些词应该被链接
  2. 确定是否有合适的条目将这些词链接到

现在,(2)更简单,尽管它也有些问题。Wikipedia 似乎有一个 API可以让您有效地收集数据,并且它们还允许“屏幕抓取”。但是消歧存在一个问题——有时你可能没有找到你想要的条目。例如,python链接到消歧页面,因为它可以是编程语言、蛇和其他一些东西。

(1) 不过,难度要大得多。您可以采用“简单方法”并尝试查找所有重要名词(甚至是名词/形容词对)的链接。这里的非平凡意味着省略诸如“恶魔,单词,计算机”等单词。但这会导致过多的链接,不方便阅读。真正由您决定文本中有趣的内容,这在很大程度上取决于文本本身。在给专业程序员的文章中,你真的要每次都链接到“搜索算法”吗?但对于初学者来说,也许你会。

最后,我强烈怀疑是否有一个通用工具可以为您解决问题。但是您肯定拥有所有选项,并且可以轻松编写特定需求的代码。

于 2009-03-14T06:32:13.787 回答
1

微软研究院的 Silviu Cucerzan 解决了这个问题。好吧,不是插入链接的问题,而是确定某段文本中提到了哪些实体的一般问题。幸运的是,他使用 Wikipedia 文章作为他的实体集。他的论文“基于维基百科数据的大规模命名实体消歧”可在他的网站上找到。直接链接:pdf

于 2009-05-25T11:29:38.520 回答
1

有一个工具可以完全满足您的要求。http://wikify.appointment.at/ 这并不完美,但它确实有效。

于 2009-05-27T09:16:33.643 回答