问题标签 [wikipedia-api]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
15055 浏览

c# - 连接到 Wikipedia API 的 WebRequest

这可能是一个非常简单的问题,但我似乎无法格式化帖子 webrequest/response 以从Wikipedia API获取数据。如果有人可以帮助我查看我的问题,我已经在下面发布了我的代码。

0 投票
8 回答
54057 浏览

wikipedia-api - 如果存在,如何使用 wikipedia api?

我正在尝试找出是否有 Wikipedia API(我认为它与 MediaWIki 有关?)。

如果是这样,我想知道如何告诉维基百科给我一篇关于纽约洋基队的文章。

此示例的 REST URL 是什么?

关于这个主题的所有文档似乎都相当复杂。

0 投票
9 回答
12072 浏览

php - 我如何只抓取维基百科文章的已解析信息框?

我仍然坚持尝试从维基百科解析文章的问题。实际上,我希望解析来自维基百科的文章的信息框部分,即我的应用程序引用了国家,并且在每个国家页面上,我希望能够显示该国家相应维基百科文章中的信息框。我在这里使用 php - 如果有人有任何代码片段或关于我应该在这里做什么的建议,我将不胜感激。

再次感谢。


编辑

好吧,我有一个带有国家名称的数据库表。我有一个脚本,它包含一个国家并显示其详细信息。我想获取信息框 - 带有所有国家/地区详细信息图像等的蓝色框,因为它来自维基百科并将其显示在我的页面上。我想知道一个非常简单的方法来做到这一点 - 或者有一个脚本,只是将信息框的信息下载到本地远程系统,我以后可以自己访问。我的意思是我对这里的想法持开放态度 - 除了我想要的最终结果是在我的页面上看到信息框 - 当然在底部有一些维基百科内容链接:)


编辑

我想我在http://infochimps.org上找到了我想要的东西——他们有大量的数据集,我认为是 YAML 语言。我可以直接使用这些信息,但我需要一种方法来不时地从维基百科不断更新这些信息,尽管我相信信息框很少改变,尤其是在国家/地区,除非某个国家决定更改其首都左右。

0 投票
5 回答
28395 浏览

java - Java中是否有任何API可以访问维基百科数据

我想知道:是否有任何 API 或查询接口可以让我访问维基百科数据?

0 投票
5 回答
11825 浏览

image - 如何在不注册 Bot 帐户的情况下以编程方式从 Wikimedia Commons 下载图像?

似乎获得 Bot 帐户批准的唯一方法是添加或编辑已经在 Wikimedia 上的信息。如果您尝试在没有机器人帐户的情况下使用某些 api 库下载任何图像,您会收到错误消息而不是图像。似乎他们阻止了任何不从浏览器进入的人?其他人有这方面的经验吗?我在这里错过了什么吗?

0 投票
2 回答
536 浏览

wikipedia - 维基百科机器人和验证码

我看到有许多用于编写维基百科机器人的php(和其他)框架,但验证码不是问题吗?或者机器人不必解决它(但这听起来好像一开始就没有验证码......)?或者也许我可以让我的 prog 停止并让我填写验证码?

0 投票
9 回答
14901 浏览

parsing - 获取维基百科文章的第一行

我有一篇 Wikipedia-Article,我想从文章中获取前 z 行(或前 x 字符或前 y 字,无关紧要)。

问题:我可以获取源 Wiki-Text(通过 API)或解析的 HTML(通过直接 HTTP 请求,最终在打印版本上),但我怎样才能找到显示的第一行?通常,源代码(html 和 wikitext)以信息框和图像开头,而要显示的第一个真实文本位于代码中的某个位置。

例如: 维基百科上的阿尔伯特·爱因斯坦(印刷版)。查看代码,第一个真实文本行“Albert Einstein(发音为 /ˈælbərt ˈaɪnstaɪn/;德语:[ˈalbɐt ˈaɪ̯nʃtaɪ̯n];1879 年 3 月 14 日至 1955 年 4 月 18 日)是一位理论物理学家。” 不是在开始。这同样适用于Wiki-Source,它以相同的信息框开头,依此类推。

那么你将如何完成这项任务呢?编程语言是java,但这无关紧要。

我想到的一个解决方案是使用 xpath 查询,但这个查询对于处理所有边界情况会相当复杂。[更新]没那么复杂,看下面我的解决方案![/update]

谢谢!

0 投票
10 回答
61109 浏览

mediawiki - 通过 API 从 mediawiki 页面获取文本内容

我对 MediaWiki 还很陌生,现在我遇到了一些问题。我有一些 Wiki 页面的标题,我只想使用api.php获取所述页面的文本,但我在 API 中找到的所有内容都是获取页面 Wiki 内容的一种方式(使用 wiki 标记)。我使用了这个 HTTP 请求...

但我只需要文本内容,没有 Wiki 标记。MediaWiki API 有可能吗?

0 投票
7 回答
5379 浏览

objective-c - 抓取和解析维基百科页面

我想知道在 Objective-C 中是否有任何现有的库或可以从 Objective-C 访问这些库,这些库可以让我抓取像这样格式化的页面。具体来说,所有日期和每个日期旁边的所有文本。如果不是,那么最好的方法是什么?常用表达?我听说NSString可能已经为此提供了内置方法。这是真的?

我环顾四周,看看是否有任何替代抓取的方法,例如 XML 文件或 API。我确实找到了一个 API,但我看到的唯一可用的客户端是其他语言的,它们似乎只能将内容发布到页面,而不是检索它。

编辑:所以我在这些链接中找到了有关 API 的更多信息:

我能够提出这个请求,它返回一些 HTML 编码的文本(格式是 XML,但它包括页面的文本等»a href=。我​​会继续查看文档,看看我能不能把这个出来好一点,如果不是,有没有关于解析这个的建议?

编辑 2:好的,多亏了这个文档页面,我能够检索数据的最简单和最干净的方法是使用这个构造的链接,它返回相关部分的原始数据(在 wiki 标记中)。但是,我想我需要解析它,但如果确实如此,它应该比整篇文章容易得多。

是否有人对解析 wiki 标记有任何建议,例如 Objective-C 中的以下内容?

我最终想要的是,我猜想一个NSDictionary或类似的集合将存储日期以及随附的信息片段。谢谢!

0 投票
4 回答
1171 浏览

database - 维基百科如何避免重复条目?

像维基百科这样大的网站如何对重复的条目进行分类?

从用户创建重复条目的那一刻起,我需要知道确切的过程等等。如果您不知道但您知道方法,请发送。

- - 更新 - -

假设有 wikipedia.com/horse,然后有人创建了 wikipedia.com/the_horse,这是一个重复的条目!它应该被删除或可能被重定向到原始页面。