5

我正在尝试从 Wikidata 查询实体的所有实例。我发现目前唯一的方法是使用 SPARQL 端点。

我找到了一个关于我想做的事情的示例查询,并从 Web 界面成功执行了它。不幸的是,我似乎无法从我的 Java 代码中执行它。我正在使用 openRDF SPARQL 库。这是我的相关代码:

SPARQLRepository sparqlRepository = new SPARQLRepository(
        "https://query.wikidata.org/");
SPARQLConnection sparqlConnection = new SPARQLConnection(
        sparqlRepository);

String query = "SELECT ?s ?desc ?authorlabel (COUNT(DISTINCT ?sitelink) as ?linkcount) WHERE {"
        + "?s wdt:P31 wd:Q571 ."
        + "?sitelink schema:about ?s ."
        + "?s wdt:P50 ?author"
        + "OPTIONAL { ?s rdfs:label ?desc filter (lang(?desc) = \"en\"). }"
        + "OPTIONAL {"
        + "?author rdfs:label ?authorlabel filter (lang(?authorlabel) = \"en\")."
        + "}"
        + "} GROUP BY ?s ?desc ?authorlabel ORDER BY DESC(?linkcount)";

TupleQuery tupleQuery = sparqlConnection.prepareTupleQuery(
        QueryLanguage.SPARQL, query);
System.out.println("Result for tupleQuery" + tupleQuery.evaluate());

这是我收到的回复:

Exception in thread "main" org.openrdf.query.QueryEvaluationException: <html>
<head><title>405 Not Allowed</title></head>
<body bgcolor="white">
<center><h1>405 Not Allowed</h1></center>
<hr><center>nginx/1.9.4</center>
</body>
</html>
    at org.openrdf.repository.sparql.query.SPARQLTupleQuery.evaluate(SPARQLTupleQuery.java:59)
    at main.Test.main(Test.java:72)
Caused by: org.openrdf.repository.RepositoryException: <html>
<head><title>405 Not Allowed</title></head>
<body bgcolor="white">
<center><h1>405 Not Allowed</h1></center>
<hr><center>nginx/1.9.4</center>
</body>
</html>
    at org.openrdf.http.client.HTTPClient.handleHTTPError(HTTPClient.java:953)
    at org.openrdf.http.client.HTTPClient.sendTupleQueryViaHttp(HTTPClient.java:718)
    at org.openrdf.http.client.HTTPClient.getBackgroundTupleQueryResult(HTTPClient.java:602)
    at org.openrdf.http.client.HTTPClient.sendTupleQuery(HTTPClient.java:367)
    at org.openrdf.repository.sparql.query.SPARQLTupleQuery.evaluate(SPARQLTupleQuery.java:52)
    ... 1 more

通常我会假设这意味着我需要某种 API 密钥,但 Wikidata API 似乎是完全开放的。我在设置连接时犯了错误吗?

4

2 回答 2

5

Wikidata 的正确端点 URL 是https://query.wikidata.org/sparql- 您缺少最后一点。

此外,我注意到您的代码中存在一些小故障。首先,你正在这样做:

SPARQLConnection sparqlConnection = new SPARQLConnection(sparqlRepository);

这应该是这样的:

RepositoryConnection sparqlConnection = sparqlRepository.getConnection();

始终Repository使用对象从对象中检索您的连接对象getConnection()- 这意味着资源是共享的,并且Repository可以在必要时关闭“悬空”连接。

其次:您不能打印出这样的查询结果:

System.out.println("Result for tupleQuery" + tupleQuery.evaluate());

如果您希望将结果打印给System.out您,则应改为执行以下操作:

tupleQuery.evaluate(new SPARQLResultsTSVWriter(System.out));

或者(如果您希望更多地自定义结果):

for (BindingSet bs : QueryResults.asList(tupleQuery.evaluate())) {
    System.out.println(bs);
}

对于它的价值 - 通过上述更改,查询请求运行,但看起来您的查询对于 Wikidata 来说太“重” - 至少我从服务器收到超时错误。不过尝试一个更简单的查询,您会看到代码有效。

于 2016-05-24T05:29:45.010 回答
3

当我转到https://query.wikidata.org/并查看工具 > SPARQL REST 端点时,我看到(添加了重点):

SPARQL 端点

SPARQL 查询可以通过对https://query.wikidata.org/sparql?query= {SPARQL}的 GET 请求直接提交到 SPARQL 端点(POST 和其他方法请求将被“403 Forbidden”拒绝)。*结果默认以 XML 形式返回,如果提供了查询参数 format=json 或标头 Accept: application/sparql-results+json,则以 JSON 形式返回。

看起来你正在使用不同的 URL(看起来你没有最终的 URL sparql),所以你可能实际上并没有到达那个端点。

也就是说,由于您可以访问您正在使用的 URL(可能使用 GET),听起来您的 API 调用可能正在执行 POST,因此您可能还想检查查询是如何通过网络的。

Use Jena to query wikidata中有一个使用 Jena 端点的示例。该问题的 OP 实际上与您遇到的问题相同(错误的查询 URL)。

于 2016-05-23T20:59:37.000 回答