是否存在可以解析文本并输出该文本的工具,超链接到维基百科条目以获取感兴趣的单词?
例如,我想要一个可以变成这样的工具:
排序列表上最流行的搜索算法是二分搜索。
进入:
如果 Wikipedia 有一个 API 可以做到这一点,那就太好了,因为他们最有能力确定什么是“感兴趣的词”。
在我的示例中,我只是将所有直接链接到条目的组合链接,除了 The 和 most。
您有两个不同的问题需要在这里解决:
现在,(2)更简单,尽管它也有些问题。Wikipedia 似乎有一个 API可以让您有效地收集数据,并且它们还允许“屏幕抓取”。但是消歧存在一个问题——有时你可能没有找到你想要的条目。例如,python链接到消歧页面,因为它可以是编程语言、蛇和其他一些东西。
(1) 不过,难度要大得多。您可以采用“简单方法”并尝试查找所有重要名词(甚至是名词/形容词对)的链接。这里的非平凡意味着省略诸如“恶魔,单词,计算机”等单词。但这会导致过多的链接,不方便阅读。真正由您决定文本中有趣的内容,这在很大程度上取决于文本本身。在给专业程序员的文章中,你真的要每次都链接到“搜索算法”吗?但对于初学者来说,也许你会。
最后,我强烈怀疑是否有一个通用工具可以为您解决问题。但是您肯定拥有所有选项,并且可以轻松编写特定需求的代码。
有一个工具可以完全满足您的要求。http://wikify.appointment.at/ 这并不完美,但它确实有效。