问题标签 [wikipedia-api]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
4825 浏览

php - 在 PHP 中解析 Wikipedia 标记的最佳方法是什么?

我正在尝试以结构化的方式解析特定的维基百科内容。这是一个示例页面:

http://en.wikipedia.org/wiki/Polar_bear

我正在取得一些成功。我可以检测到这个页面是一个“物种”页面,我还可以将 Taxobox(右侧)信息解析为一个结构。到现在为止还挺好。

但是,我也在尝试解析文本段落。这些由 API 以 Wiki 格式或 HTML 格式返回,我目前正在使用 Wiki 格式。

我可以阅读这些段落,但我想以特定方式“清理”它们,因为最终我将不得不在我的应用程序中显示它并且它没有 Wiki 标记的意义​​。例如,我想删除所有图像。通过过滤掉 [[Image:]] 块相当容易。然而,也有一些我根本无法删除的块,例如:

{{转换|350|-|680|kg|abbr=on}}

删除整个块会破坏句子。并且有几十个这样的符号具有特殊的含义。我想避免编写 100 个正则表达式来处理所有这些,看看如何以更智能的方式解析它。

我的困境如下:

  • 我可以继续我目前的半结构化解析路径,在那里我需要做很多工作来删除不需要的元素以及“模仿”确实需要渲染的模板。
  • 或者,我可以从呈现的 HTML 输出开始并对其进行解析,但我担心以结构化方式解析它同样脆弱和复杂

理想情况下,有一个图书馆可以解决这个问题,但我还没有找到一个可以胜任这项工作的图书馆。我还查看了像 DBPedia 这样的结构化 Wikipedia 数据库,但那些只有我已经拥有的相同结构,它们不提供 Wiki 文本本身的任何结构。

0 投票
2 回答
3376 浏览

redirect - Wikipedia API:如何在 1 次调用中检索多个标题并解析重定向?

MediaWiki API:Query 页面可以看出,您一次只能解析一个重定向。

该文档甚至说“下面的示例并不是真正有用,因为它不使用任何查询模块,但显示了重定向参数的工作原理。”

但是你怎么能得到重定向信息——使用一个返回多个结果的查询模块呢?

0 投票
1 回答
3643 浏览

wikipedia-api - 寻找可以给我他们的 XML 文章的 wikipedia api

我正在寻找一个 wikipedia api,它可以给我一篇文章(没有图片)到相应的查询。我已经看到与actions=opensearchand一起使用的 wikipedia api query=search。请告诉我哪个是正确的,或者是否还有其他action我应该使用的。

0 投票
2 回答
12769 浏览

api - Wikipedia list=search REST API:如何检索匹配文章的 URL

我正在研究 Wikipedia REST API,但我找不到正确的选项来获取搜索查询的 URL。

这是请求的 URL:

此请求仅输出标题和片段,但不输出文章的 URL。我已经检查了 list=search 查询的 wikipedia API 文档,但似乎没有获取 URL 的选项。

最好的问候,法比奥·布达

0 投票
1 回答
3247 浏览

case-sensitive - 如何从电影的 Wikipedia API 获取内容?

我试图从 Wikipedia API 中获取电影“殿下”的描述,但它什么也没给我。

http://en.wikipedia.org/w/api.php?format=xml&action=query&titles=your%20highness&prop=revisions&rvprop=content

当我在谷歌上搜索“殿下”维基百科作为第三个结果时,这就是我希望 API 给我的页面。

另外我只想要电影描述的文本,没有混合维基语法或任何东西。

0 投票
4 回答
18397 浏览

php - 如何使用 PHP 从 Wikipedia API 获取结果?

我可能不应该使用 file_get_contents() 我应该使用什么?我想保持简单。

警告:file_get_contents(http://en.wikipedia.org/w/api.php?action=query&titles=Your_Highness&prop=revisions&rvprop=content&rvsection=0):打开流失败:HTTP 请求失败!HTTP/1.0 403 禁止

0 投票
1 回答
653 浏览

html - 使用 Wikipedia API 时,如何检索样式表?

我正在尝试使用Wikipedia API从 Wikipedia 获取 HTML 内容。我找不到嵌入它的正确方法。由于样式没有扩展,我想我需要指定嵌入它的 HTML 头部中使用的样式表。

我怎么知道要包含的正确 CSS 是什么?

0 投票
1 回答
432 浏览

asp.net - 使用维基百科 api 时出错

我正在使用 wikipedia api 从 wiki pedia 获取数据,但我在这里收到错误我发布我的代码和我的错误。请帮我。

这是我的错误:

0 投票
1 回答
848 浏览

api - 如何使用 Wikipedia api 获得“所有带有前缀的页面”的结果?

我希望使用 Wikipedia api 来提取此页面的结果:

http://en.wikipedia.org/wiki/Special:PrefixIndex

在上面搜索“某物”时,例如:

http://en.wikipedia.org/w/index.php?title=Special%3APrefixIndex&prefix=tal&namespace=4

然后,我想访问每个结果页面并提取它们的信息。

我可以使用什么 api 调用?

0 投票
1 回答
2910 浏览

r - 在 getURL 中设置“信息丰富的用户代理字符串”

我正在尝试访问 Wikipedia 页面以获取页面列表,并收到以下错误:

我希望通过 Wikipedia api 访问该页面,但我不确定它是否有效

问题是其他页面可以毫无问题地阅读,例如:

有什么建议么?

旁注:一般来说,我宁愿不抓取 wiki 页面并通过 api,但我担心这个特定页面还不能通过 api 获得......