首先,我 不确定 我是否 理解这样的东西会有什么用处。_ (维基百科有所有常用词的文章,我认为指向它们的链接没有任何用处。)
但如果你真的想做这样的事情,我认为更好的方法是使用API来找出输入文本中的哪些单词有文章。
例如,对于 string I am writing an "auto-wikifier" tool
,您的查询可能类似于:
http://en.wikipedia.org/w/api.php?format=xml&action=query&titles=I|am|writing|an|auto-wikifier|tool
答案是:
<api>
<query>
<normalized>
<n from="am" to="Am" />
<n from="writing" to="Writing" />
<n from="an" to="An" />
<n from="auto-wikifier" to="Auto-wikifier" />
<n from="tool" to="Tool" />
</normalized>
<pages>
<page ns="0" title="Auto-wikifier" missing="" />
<page pageid="2513432" ns="0" title="Am" />
<page pageid="2513422" ns="0" title="An" />
<page pageid="25346998" ns="0" title="I" />
<page pageid="30677" ns="0" title="Tool" />
<page pageid="32977" ns="0" title="Writing" />
</pages>
</query>
</api>
几点注意事项:
- 结果不是您指定的顺序。
- 如果页面不存在,则结果具有
missing=""
属性。
- JSON 和 JSONP 格式也可用,可能更适合 JavaScript。
titles
每个查询的参数限制为 50 个。