问题标签 [wikipedia]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
386 浏览

parsing - 我在哪里可以找到网络上的原始文本转储?

我希望在我正在编写的程序中进行一些文本分析。我正在寻找类似于 Wikipedia 转储 (download.wikimedia.com) 中提供的原始形式的替代文本来源。

我宁愿不必经历爬取网站、尝试解析 html、提取文本等的麻烦。

0 投票
1 回答
1130 浏览

python - 使用 Python 的维基百科

我有这个非常简单的 python 代码来读取 wikipedia api 的 xml:

但是此代码返回以下错误:

我不知道,因为我刚刚学习 python。有没有办法得到更详细的错误?有谁知道解决方案?另外,请推荐一种更好的语言来执行此操作。

谢谢你,
文卡特饶

0 投票
3 回答
569 浏览

business-intelligence - 维基百科数据上的商业智能 (BI)

简介:
我是一个BI迷,想开发一个项目来深入了解 Wikipedia 的数据。
我会编写脚本从dbpedia中提取数据(可能从人员文章开始)并将其加载到人员表中。

我的问题是:
以前有人做过吗?更好的是,是否有专门的社区?
如果脚本在某个地方,我宁愿为它们做出贡献,也不愿重写它们。

举个例子:
在 OLAP 多维数据集中,我可以按名字向下钻取,选择钻取“Remi”,检查在哪些区域使用了这个名字,然后为所有区域向下钻取性别来检查这个名字在女孩中很受欢迎,在男孩中很受欢迎。对于它们中的每一个,我可以通过时间向下钻取以查看趋势。如果没有 BI 工具,您无法进行此类调查,否则需要几天而不是几秒钟。

0 投票
2 回答
521 浏览

mediawiki - 维基媒体页面到 Python 中的文本

我想将使用 API 提取的维基百科内容转换为纯文本。

任何提示?

0 投票
1 回答
458 浏览

java - 想要英语中最常用的单词

我想要最常用的英语单词。基本上,我正在处理维基百科文本并且即使在删除停用词之后也会遇到很多单词。我尝试用谷歌搜索常用词,但得到了下面的链接。

http://en.wiktionary.org/wiki/Wiktionary:Frequency_lists#English

我必须手动从这些链接中抓取数据。这些词有已知的来源可以直接下载吗?

谢谢

0 投票
1 回答
404 浏览

algorithm - PCA:这个算法有什么问题?

有人可以确认或更正这个用于计算第一个主成分的维基百科算法吗?我想要一个简单的 D 中 PCA 实现,它没有任何现有的 PCA AFAIK 库。我已经尝试过实现这一点,但我在简单示例上的结果似乎与我从 R 或 Octave 获得的内容不匹配。我很确定这不是一个实现错误,因为我已经多次检查了我的实现,甚至从头开始重写它,这是一个非常简单的算法。

0 投票
3 回答
197 浏览

java - 维基百科:跨多种语言的页面

我想为我的项目使用维基百科转储。我的项目需要以下信息。

  1. 对于 wikipedia 条目,我想知道包含该页面的其他语言是什么?
  2. 我想要 csv 或其他常见格式的可下载数据。

有没有办法获取这些数据?

谢谢巴拉

0 投票
1 回答
283 浏览

cocoa - 使用 NSScanner 问题获取 Wikipedia 文章摘要

我正在尝试获取文章的摘要并将其作为字符串下载。这适用于某些文章,但维基百科网站不一致。所以 NSScanner 经常失败,而它在其他文章中运行良好。

这是我的 NSScanner 实现:

如何改进?还是有其他方法可以得到这个?

为了可视化我想要的文章的哪一点,这里有一个例子:

http://en.wikipedia.org/wiki/Indigo

从这里我想要从“靛蓝是电磁光谱上的颜色”到“英语是 1289 年”的所有内容。

谢谢!

0 投票
2 回答
1174 浏览

php - 维基百科 API 中的问题

我在使用 Wikipedia API 时遇到问题。我使用这个 PHP 脚本,

我在浏览器中有以下结果。为什么?

警告:DOMDocument::load(http://en.wikipedia.org/w/api.php?action=query&prop=revisions&titles=New_York_Yankees&rvprop=content&format=xml) [domdocument.load]:打开流失败:HTTP 请求失败!HTTP/1.0 403 Forbidden in D:\Program Files\VertrigoServ\www\wiki\index.php 第 3 行

警告:DOMDocument::load() [domdocument.load]:I/O 警告:未能加载外部实体“http://en.wikipedia.org/w/api.php?action=query&prop=revisions&titles=New_York_Yankees&rvprop=content&format =xml”在 D:\Program Files\VertrigoServ\www\wiki\index.php 第 3 行

0 投票
2 回答
3369 浏览

java - Java:使用 SAXParser 拆分大型 XML 文件

我正在尝试使用 java 将一个大的 XML 文件拆分为较小的文件SAXParser(特别是未压缩的 28GB 的​​维基百科转储)。

我有一个Pagehandler扩展类DefaultHandler

所以我可以写出元素内容没问题。我的问题是如何获取元素标签和属性——这些字符似乎没有被报告。充其量我将不得不从作为参数传递的内容中重建这些startElement- 这似乎有点痛苦。或者有没有更简单的方法?

我要做的就是遍历文件并将其写出,每隔一段时间滚动输出文件。这有多难:)

谢谢