目前,我正在尝试将给定维基百科页面的内容检索到纯文本文件。使用 XPath,我的代码可以完美地做到这一点。然而,只有一个简单的问题:维基百科上的某些页面是消歧页面。
现在,这本身并不戏剧化。我编写了一个 XPath 表达式,用于检索 Wikipedia 消歧页面的第一个链接:(/html/body/div[@id='content']/div[@id='bodyContent']//a[starts-with(@href, '/wiki')]/@href)[1]
. 这意味着我可以将第一个链接用作我试图从中检索内容的页面。
不,真正的问题是我没有找到任何方法来知道何时使用该代码(从消歧页面检索第一个链接的那个)或另一段代码(直接从有趣的页,非消歧之一)。事实上,我似乎无法找到一种方法来区分一个明确的页面和一个正常的页面。
到目前为止,我已经尝试过:
查看已消除歧义页面的来源并将其与正常页面进行比较:我找不到差异。
查看这两种页面上的内容:在这里,唯一的区别是某些页面在顶部显示“此页面可能引用”。但是,并非所有页面都真正提到这一点。
一个简单的解决方案是查看页面的标题(例如,http ://en.wikipedia.org/wiki/Boston_(disambiguation ))。但是,并非所有已消除歧义的页面的标题中都包含“消除歧义”一词:http ://en.wikipedia.org/wiki/Freedom 。
因此,总而言之,有没有人知道将维基百科消歧页面与具有实际内容的维基百科页面区分开来的方法?
编辑:这实际上与问题无关,但我正在用 Objective-C 编程。