0

上周我一直在查看维基媒体摘要转储文件 (enwiki-latest-abstract.xml.gz),并注意到许多项目的摘要似乎已损坏。

例如,阿拉巴马州的维基百科页面包含以下转储摘要:

<title>Wikipedia: Alabama</title>
<url>https://en.wikipedia.org/wiki/Alabama</url>
<abstract>(We dare defend our rights)</abstract>

同样,亚伯拉罕·林肯项目的摘要是:

<title>Wikipedia: Abraham Lincoln</title>
<url>https://en.wikipedia.org/wiki/Abraham_Lincoln</url>
<abstract>| term_start1 = March 4, 1847</abstract>

这似乎是信息框的部分片段。

enwiki-latest-abstract.xml.gz 中的大多数项目似乎都存在这种损坏。

我很感激有人就这是否是一个错误或我是否对此转储文件有误解提出任何建议。

谢谢!

4

1 回答 1

2

这可能只是提取代码表现不佳;它不是很复杂。

FWIW Wikipedia 有两种不同的提取/摘要 API,它们在这里的表现似乎都很合理(较旧的基于 api.php 的 API 有点损坏,但并未完全损坏):

https://en.wikipedia.org//w/api.php?action=query&format=jsonfm&prop=extracts&titles=Alabama%7CAbraham%20Lincoln&exsentences=1&exintro=1&explaintext=1

阿拉巴马州()是美国东南部地区的一个州。

亚伯拉罕·林肯(1809 年 2 月 12 日 \u2013 1865 年 4 月 15 日)是一位美国政治家和律师,曾任美国第 16 任总统(1861\u20131865)。

https://en.wikipedia.org/api/rest_v1/page/summary/Alabama

阿拉巴马州是美国东南部的一个州。它北接田纳西州,东接乔治亚州,南接佛罗里达州和墨西哥湾,西接密西西比州。阿拉巴马州是美国第 30 大面积和人口第 24 大的州。阿拉巴马州共有 1,500 英里(2,400 公里)的内陆水道,是所有州中最多的州之一。

https://en.wikipedia.org/api/rest_v1/page/summary/Abraham_Lincoln

亚伯拉罕·林肯 (Abraham Lincoln) 是一位美国政治家和律师,曾担任美国第 16 任总统 (1861-1865)。林肯带领国家度过了美国内战中最大的道德、宪法和政治危机。他维护了联邦,废除了奴隶制,加强了联邦政府,并使美国经济现代化。

不过,这些都没有转储。

于 2020-04-28T09:29:37.747 回答