问题标签 [wikipedia]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
636 浏览

java - 人名消歧

我目前正在做一个关于人名消歧的项目。该项目背后的想法是,当有多个同名的人时,它将能够识别正确的人。我为此使用了维基百科。我想根据一些标准数据评估我的项目。我正在寻找一些测试数据。我不熟悉维基百科中的流行名称。任何想法,我在哪里可以找到这些数据?我不是在寻找大量数据。我只是在寻找一些 100-500 个例子。

谢谢

为问题添加更多信息。

我正在寻找的是同名但实际上不同的人。例如,Michael Jordon 是一位著名的篮球运动员,并且还有一位统计学家同名。我正在寻找这样的例子。

http://en.wikipedia.org/wiki/Michael_Jordan http://en.wikipedia.org/wiki/Michael_I._Jordan

希望,你现在明白这个问题了。

0 投票
2 回答
1308 浏览

encoding - 维基百科 (MediaWiki) URI 编码方案

Wikipedia(或一般的 MediaWiki)如何在 URI 中编码页面标题?这不是普通的 URI 编码,因为空格被下划线替换,双引号没有被编码等等。

0 投票
6 回答
9237 浏览

java - 维基百科解析器

我下载了一个 Wikipedia 转储,我想将 wiki 格式转换为我的对象格式。是否有可用的 wiki 解析器将对象转换为 XML?

0 投票
4 回答
1192 浏览

python - 用于 cron 作业的应用程序引擎 DeadlineExceededError 和用于维基百科爬虫的任务队列

我正在尝试在谷歌应用引擎上构建一个维基百科链接爬虫。我想在数据存储中存储一个索引。但是我遇到了 cron 作业和任务队列的 DeadlineExceededError。

对于 cron 工作,我有以下代码:

def buildTree(self):

我不明白为什么 for 循环在 10 秒后没有中断。它在开发服务器上。服务器上的 time.time() 一定有问题。我可以使用其他功能吗?

对于任务队列,我有以下代码:
def addNewBranch(self, keyword, level=0):

日志显示它们都遇到了 DeadlineExceededError。后台处理的页面请求不应该超过 30 秒。有没有办法绕过异常?

这是 addBranch() 的代码

def addBranches(self, keyword):

0 投票
3 回答
2967 浏览

java - 在 Lucene 中使用 WikipediaTokenizer 的示例

我想在 lucene 项目中使用 WikipediaTokenizer - http://lucene.apache.org/java/3_0_2/api/contrib-wikipedia/org/apache/lucene/wikipedia/analysis/WikipediaTokenizer.html但我从未使用过 lucene。我只想将维基百科字符串转换为令牌列表。但是,我看到这个类中只有四种方法可用,end、incrementToken、reset、reset(reader)。有人可以给我举个例子来使用它。

谢谢你。

0 投票
4 回答
103 浏览

.net - 如何检索由“{{”和“}}”包围的子字符串的最长匹配项?

我正在尝试解析通过 Wikipedia 的 API 接收的 wikitext 文件,问题是它的一些模板(即包含在 {{ 和 }} 中的片段)不会自动扩展为 wikitext,因此我必须在文章中手动查找它们最终获取并替换它们。问题是,我可以在 .NET 中使用正则表达式从文本中获取匹配项吗?

为了让自己更清楚,这里有一个例子来说明我的意思:

对于字符串

应该有一个匹配,即整个字符串,所以最长可能匹配。

另一方面,对于本例中的“孤立”大括号:

结果应该是一个匹配:{{...}}

谁能给我一个建议?提前致谢。

0 投票
1 回答
287 浏览

iphone - iPhone 上的维基百科阅读器

我想为 iPhone 制作一个维基百科阅读器。最好的方法是什么?

我已经对此进行了一些思考。使用 Wikipedia API 加载 Wikipedia 站点的内容非常容易。但困难在于如何以一种好的方式显示内容。内容用维基百科标签标记,而不是 html。我的想法是解析整个内容并用真正的 html 标签交换这些元素,然后我将文本(现在在 html 中)加载到 UIWebView 并使用自定义 CSS 文件应用我自己的样式。

但我不确定这是否是一个很好的解决方案。有没有其他更好的解决方案可以解决我的问题,或者我的方法是否正确?如果您能提供一个教程或示例,那就太好了。

谢谢

0 投票
3 回答
3820 浏览

wikipedia - 如何从 Wikipedia 中获取有关人员的所有文章?

从 Wikipedia 获取有关人员的所有文章的最简单方法是什么?我知道我可以下载所有页面的转储,但是如何过滤这些页面并仅获取有关人员的页面?我需要尽可能多的(最好超过一百万),所以使用任何类型的 API 可能都不是一种选择。

0 投票
3 回答
4255 浏览

api - Wikipedia API 是否支持搜索特定模板?

是否可以在 Wikipedia API 中查询包含特定模板的文章?该文档没有描述将搜索结果过滤到包含模板的页面的任何操作。具体来说,我在寻找包含Template:Persondata. 之后,我希望能够仅检索该特定模板,以便为openancestry.org项目填充家谱数据。

下面的查询显示 Albert Einstein 页面包含 Persondata 模板,但它不返回模板的内容,我不知道如何获取包含该模板的页面标题列表。 http://en.wikipedia.org/w/api.php?action=query&prop=templates&titles=Albert%20Einstein&tlcontinue=736|10|ParmPart

回报:

我怀疑我无法从 API 中得到我需要的东西,但我希望我错了,并且有人已经在这条道路上开辟了道路。

0 投票
3 回答
1024 浏览

wikipedia - 维基百科:“你的意思是”如何运作以及如何利用它?

我想知道 Wikipedia 的“您的意思是:...”是如何工作的,以及是否有一种方法,例如 API,可以使用它?因为我想从我的输入中获取相应的页面,但是这个页面可能包含错误。例子。是否有直接返回建议的查询?

谢谢您的帮助。