问题标签 [wikimedia-dumps]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
232 浏览

java - 访问 Wikipedia 时出现 JWPL 异常

我正在使用教程中列出的 Hello World 示例测试 JWPL API:

https://code.google.com/p/jwpl/source/browse/trunk/de.tudarmstadt.ukp.wikipedia.api/src/main/java/de/tudarmstadt/ukp/wikipedia/api/tutorial/T1a_HelloWorld。爪哇

但我收到以下 MySQL 连接异常:

02:11:31,057 信息 AbstractPoolBackedDataSource:462 - 初始化 c3p0 池... com.mchange.v2.c3p0.PoolBackedDataSource@f56923d7 [ connectionPoolDataSource -> com.mchange.v2.c3p0.WrapperConnectionPoolDataSource@76380f40 [acquireIncrement -> 3,acquireRetryAttempts - > 30,acquireRetryDelay -> 1000,autoCommitOnClose -> false,automaticTestTable -> null,breakAfterAcquireFailure -> false,checkoutTimeout -> 0,connectionCustomizerClassName -> null,

我安装了 MySQL 5.6.24,它运行正常。在我运行教程之前,我是否必须在 MySQL 中创建一些表来运行这些示例?

为清楚起见进行编辑:

The last packet sent successfully to the server was 0 milliseconds ago. The driver has not received any packets from the server. at sun.reflect.GeneratedConstructorAccessor6.newInstance(Unknown Source) at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45) at java.lang.reflect.Constructor.newInstance(Constructor.java:526) at com.mysql.jdbc.Util.handleNewInstance(Util.java:411) at com.mysql.jdbc.SQLError.createCommunicationsException(SQLError.java:1117) at com.mysql.jdbc.MysqlIO.<init>(MysqlIO.java:350) at com.mysql.jdbc.ConnectionImpl.coreConnect(ConnectionImpl.java:2393) at com.mysql.jdbc.ConnectionImpl.connectOneTryOnly(ConnectionImpl.java:2430) at com.mysql.jdbc.ConnectionImpl.createNewIO(ConnectionImpl.java:2215) at com.mysql.jdbc.ConnectionImpl.<init>(ConnectionImpl.java:813) at com.mysql.jdbc.JDBC4Connection.<init>(JDBC4Connection.java:47) at sun.reflect.GeneratedConstructorAccessor9.newInstance(Unknown Source) at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)

0 投票
1 回答
284 浏览

java - 使用 gwtwiki "Usage: Parser" 处理 wiki 转储“ 错误

我正在尝试使用 gwtwiki 和 java处理 wikimedia 转储文件(例如: http ://dumps.wikimedia.org/enwiki/20150304/enwiki-20150304-pages-meta-history9.xml-p000897146p000925000.bz2)。我对java很陌生(我可以理解和编写简单的java脚本)并且我正在使用eclipse。我已经导入了 gwtwiki 项目并尝试运行 DumpExample.java,但我得到了Usage: Parser <XML-FILE>响应错误。

我不知道在哪里定义 .bz2 转储文件的路径并尝试至少编辑用法:对其他内容的Parser <XML-FILE>错误响应,但即使尝试逐步运行它或添加更多内容,我也得到了相同的结果像这样的代码行System.out.println("test");

文档没有解释这应该如何完成,因为我认为对于熟悉 java 的人来说,这应该是非常自我解释的。

现在,我不需要关于如何实现这一目标的分步教程,但我想要一个起点或一些线索,我会自己学习。经过几天的搜索,我发现我什至不知道从哪里开始。我也知道你可以这样说:

了解更多Java!

但我总是通过实际参与这样的项目来学得更好。

DumpExample.java:_

0 投票
1 回答
259 浏览

html - 在我的网站上使用维基媒体图片

所以我有一个 wikimedia commons URL(它实际上只是实际图像的包装),如下所示: https: //commons.wikimedia.org/wiki/File:Nine_inch_nails_-_ Staples_Center_- 11-8-13 (10755555065_16053de956_o)。 jpg

如果我转到该页面,我可以看到实际图像位于: https: //upload.wikimedia.org/wikipedia/commons/thumb/5/5b/Nine_inch_nails_-_Staples_Center_- 11-8-13 %2810755555065_16053de956_o%29 .jpg/800px-Nine_inch_nails_-_Staples_Center_- 11-8-13 %2810755555065_16053de956_o%29.jpg

我想获取实际的文件,以便可以在<img>标签中使用它。

我怀疑他们会给你一个 url 参数来返回位置,但我找不到任何关于它的信息。

提前致谢。

编辑:

我想我在这里找到了答案: https ://commons.wikimedia.org/wiki/Commons:FAQ#What_are_the_strangely_named_components_in_file_paths.3F

上传中的奇怪路径是来自文件名的 MD5 哈希的字母。

0 投票
0 回答
731 浏览

c# - 使用 C# 解析来自 wiki XML 转储的数据

我正在尝试提取各国外交部长的别名。我在维基百科上找到了信息

我还找到了转储 XML 文件和“Foreign_minister”页面的 XML 表示的链接是:

现在我正在尝试从 C# 中的 XML 转储中获取此页面。我将解析该 XML,然后从中获取信息。我无法从 XML 转储中获取任何内容,并且我不知道如何与之交互以从中获取 XML 格式的相应页面。有什么线索吗?

0 投票
2 回答
5092 浏览

xml - 多流维基百科转储

我下载了德语维基百科转储 dewiki-20151102-pages-articles-multistream.xml。我的简短问题是:在这种情况下,“多流”是什么意思?

0 投票
1 回答
493 浏览

xml - 结构化格式的维基词典

我如何以结构化格式(通常是 RDF)获取维基词典,比如说英语?

推荐的网站http://downloads.dbpedia.org/wiktionary/已死。

而且我不明白是否有一些现有的框架可以从官方 Wikimedia Foundation 转储中的 XML 转储中提取 RDF 表示。

我必须自己处理 XML 转储吗?

0 投票
1 回答
204 浏览

xml - Wikipedia XML Dump,在哪里可以获得消歧指令的翻译?

在 Wikipedia XML 转储文章中,消除歧义的文章{{disambiguation}}在其内容中的某处包含该指令。

这对于英文维基百科来说很简单。但是,该指令会因语言而异,例如在西班牙语维基百科中,一篇文章将包含{{desambiguación}}.

我尝试查询维基百科元数据 API。特别是magicwords:

https://es.wikipedia.org/w/api.php?action=query&meta=siteinfo&siprop=magicwords&format=json

返回的列表包括 : 之类的内容__DISAMBIGUACION____DISAMBIG__但这些内容似乎没有出现在 XML 转储中。并且disambiguacion肯定不在该列表中。

有什么提示吗?是否有任何端点或列表可以从中获取其他语言的指令,例如德语、意大利语……等等。

0 投票
1 回答
194 浏览

xml - 如何知道来自 Wikipedia XML Dump 的文章是否是列表?

有用于判断文章是否为消歧页面的指令。我想知道是否有任何指令/维基媒体模板用于将文章标记为列表?

到目前为止,我发现检查这一点的唯一方法是通过 Wikidata 的P360 Property,但理想情况下,我想从 Wikipedia XML 转储中获取此信息。

0 投票
2 回答
276 浏览

ontology - Wikidata 转储 - 长 QID

在玩转储时,我遇到了许多条目,如下所示:

http://www.wikidata.org/entity/Q12258SCD97A47E-A0CA-453F-B01A-DEE8829139BF http://www.wikidata.org/entity/P646v "/m/021821" 。

  • 代表什么Q12258SCD97A47E-A0CA-453F-B01A-DEE8829139BF?它似乎是一个 QID,后面跟着其他东西。
  • 什么属性:P646v 代表,它似乎无效?
0 投票
1 回答
66 浏览

wikipedia - 哪里可以找到 dbpedia 数据的来源

我想将 dbpedia 2015-10 数据集 ( http://wiki.dbpedia.org/Downloads2015-10 ) 与原始维基百科源进行比较。他们提供的链接(http://services-resources/datasets/dataset-2015-10/dump-dates-dbpedia-2015-10)目前无法访问。有谁知道如何获取原始数据?