问题标签 [wikimedia-dumps]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
158 浏览

java - 如何在使用维基百科数据和巨大的数字时提高性能。的网页?

我应该使用维基百科的文章链接数据转储从组织的网站中提取具有代表性的术语。为了实现这一点,我 -

  1. 抓取和下载组织的网页。(~110,000)
  2. 创建了维基百科 ID 和术语/标题的字典。(约 4000 万条记录)

现在,我应该使用字典来处理每个网页以识别术语并跟踪它们的术语 ID 和频率。

为了使字典适合内存,我将字典拆分为较小的文件。根据我对小数据集的实验,上述处理时间约为 75 天。

这仅适用于 1 个组织。我必须为其中的 40 多个人做同样的事情。

执行 -

  • HashMap 用于在内存中存储字典。
  • 使用 Boyer-Moore 搜索实现循环遍历每个地图条目以搜索网页中的术语。
  • 对每个网页重复上述操作,并将结果存储在 HashMap 中。

我已经尝试优化代码并调整 JVM 以获得更好的性能。

有人可以建议一种更有效的方法来实施上述方法,将处理时间减少到几天。

Hadoop是一个可以考虑的选择吗?

0 投票
1 回答
428 浏览

java - Lucene 维基百科转储

我目前正在索引 Wikipedia 转储(实际上是 2012 年的转储,但格式相同),并想了解性能成本(大小和处理时间)。

我正在使用 Lucene for Java v4.x 并将所有转储字段存储在索引中。我在一台配备 i5 处理器和 8 GB RAM 的机器上工作。我刚刚完成了 5000 篇文章的索引,这些文章创建了一个大小为 5GB 的索引,耗时约 10 分钟。

这意味着对于 350 万篇文章,这将是一个 3.5 TB 的索引,如果索引时间是线性的(事实并非如此),这将花费我大约 5 天的时间。我想知道这是否正常,因为原始维基百科转储文件只有 35 GB...

0 投票
1 回答
3074 浏览

python - Spark 和 Python 尝试使用 gensim 解析维基百科

根据我之前的问题Spark 和 Python 使用自定义文件格式/生成器作为 RDD 的输入,我认为我应该能够基本上解析 sc.textFile() 的任何输入,然后使用我的或来自某些库自定义函数。

现在我特别尝试使用 gensim 框架解析维基百科转储。我已经在我的主节点和所有工作节点上安装了 gensim,现在我想使用 gensim 内置函数来解析受 MAP (PySpark) 返回的元组列表(或迭代器)这个问题启发的维基百科页面。

我的代码如下:

extract_pages 的源代码可以在https://github.com/piskvorky/gensim/blob/develop/gensim/corpora/wikicorpus.py找到,根据我的经历,它似乎应该与 Spark 一起使用。

但不幸的是,当我运行代码时,我收到以下错误日志:

然后是一些可能的 Spark 日志:

我已经在没有 Spark 的情况下成功尝试过这个,所以问题应该是 Spark 和 gensim 的组合,但我不太了解我得到的错误。我在 gensim wikicorpus.py 的第 190 行没有看到任何文件读取。

编辑:

从 Spark 添加了更多日志:

编辑2:

gensim 使用 from xml.etree.cElementTree import iterparse, documentation here,这可能会导致问题。它实际上需要包含 xml 数据的文件名或文件。可以将 RDD 视为包含 xml 数据的文件吗?

0 投票
0 回答
651 浏览

python - python从xml中提取单词

如何<text></text>从结构如下的大 xml 文件(1.3 gb)中提取所有单词:

并将其保存到 txt 文件中,例如:

所有特殊字符如 [', *, [ , &] 都应该被删掉。它有很多<text>部分。如何在 python 中执行此操作(我的电脑中没有太多 ram 内存,所以它应该以某种方式迭代)。

请问你能帮帮我吗?

至少有人知道如何将此文件(仅文本部分)转换为 csv 或 json 文件。CSV 最需要的形式如上所示。

0 投票
0 回答
300 浏览

mediawiki - 获取 Wikidata 增量三元组

我想知道是否有可能获得 Wikidata 的最新增量 n-triple 转储。

我正在使用Wikidata Toolkit下载最新版本的转储并将它们自动转换为 n-triple 文件(使用RdfSerializationExample),但我不知道如何生成该转储的增量版本(指定修改的、新的和删除的实体)。

我的想法是在像OpenLink Virtuoso这样的系统中维护 Wikidata 信息的更新版本。因此,我认为有必要获得 n-triples 的增量版本。

我知道xml version 中有转储的增量版本,但我不知道如何将它们转换为 n-triples。

那么,这是最好的方法吗?

0 投票
1 回答
364 浏览

java - 提取 DBPedia 转储期间的 DBPedia 提取框架失败

在使用 DBpedia 提取框架时,我遇到了来自核心数据集的 csv 文件的问题。我有兴趣从 dbpedia 转储(RDF 格式)中提取数据(就我而言,是所有公司维基百科页面的摘要)。我正在按照DBpedia Abstract Extractioin Step-by-step Guide中的说明进行操作

使用的命令:

执行最后一个命令“./run extractextraction.properties.file”时出现以下错误。谁能指出我犯了什么错误。是否有任何我需要处理的特定 csv 文件或一些配置问题。我有完整的“mediawiki-1.24.1”。

另请注意 pages-articles.xml.bz2,我只下载了 256MB 的部分内容。请帮忙

0 投票
1 回答
684 浏览

wikipedia - 有没有办法在 *country* 谷物(而不是简单的语言)处获得每页的维基百科综合浏览量统计信息?

例如,我看到了 dumps.wikimedia.org/other/pagecounts-raw/,但那里没有特定国家/地区的数据...

0 投票
1 回答
139 浏览

regex - 正则表达式(或否?):在 XML 文件中编码所有 < > & 并保留 XML 标记

我正在模仿一个大型 xml 文件,我愿意将其导入 mediawiki。文件已完成,但<text>content</text>仍有剩余内容<>我必须先编码。

我希望可以使用正则表达式完成编码步骤(我使用的是 Windows 和软件,如 sublime text 或编辑板或 vim)。我也应该能够运行 php 脚本。

使用({{word)(.*?)(?=</text>)我能够选择所有目标进行替换——因为我不想对 xml 标记本身进行编码——但我不知道如何完成这项艰巨的工作,即如何替换所有位于目标明确的文本中的 < 和 >。

为了更清楚,这里是我需要编码几个字符的内容的简单摘录(我在 30 mo 文件中有 50000 个类似的内容):

谢谢你。

0 投票
3 回答
1945 浏览

wikipedia - 如何找到旧的维基百科转储

我需要访问法语非常古老的维基百科转储(维基百科的备份)。我成功地从archive.org 找到了2010 年的备份,现在我正在搜索2006 年甚至更早的版本。我知道在最新的转储中包含以前的所有数据,但我需要在我的计算机中设置一个 Wikipedia 版本,例如 2006、2010、2012 中的版本。一件事情——我猜——用最新的转储是不可能的。

非常感谢您的帮助。

0 投票
2 回答
372 浏览

download - 提取维基媒体浏览量统计数据

维基百科以每小时文本文件的形式提供他们所有的页面浏览量。(例如参见http://dumps.wikimedia.org/other/pagecounts-raw/2014/2014-01/

对于一个项目,需要提取 2014 年的关键字及其相关页面浏览量。但是看到一个文件(代表 1 小时,因此总共 24*365 个文件)约为 80MB。手动执行这可能是一项艰巨的任务。

我的问题: 1. 有没有办法自动下载文件?(文件结构正确,这可能会有所帮助)