问题标签 [wikimedia-dumps]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
344 浏览

wikipedia-api - enwiki-latest-abstract.xml.gz 中的摘要是否已损坏?

上周我一直在查看维基媒体摘要转储文件 (enwiki-latest-abstract.xml.gz),并注意到许多项目的摘要似乎已损坏。

例如,阿拉巴马州的维基百科页面包含以下转储摘要:

同样,亚伯拉罕·林肯项目的摘要是:

这似乎是信息框的部分片段。

enwiki-latest-abstract.xml.gz 中的大多数项目似乎都存在这种损坏。

我很感激有人就这是否是一个错误或我是否对此转储文件有误解提出任何建议。

谢谢!

0 投票
2 回答
540 浏览

mediawiki - 我们在哪里可以得到 2010 年以来每年的维基百科转储?

我想知道前几年(2010-2019)是否有英文维基百科(enwiki)页面文章转储。

https://meta.wikimedia.org/wiki/Data_dump_torrents上的数据转储种子似乎在 2017 年之前的几年都没有转储。

0 投票
1 回答
81 浏览

wikipedia - 从 Wikipedia 转储中提取特定文章及其讨论页

我是网络爬虫的新手。我有以下维基百科转储链接https://dumps.wikimedia.org/backup-index.html。我有一个文章标题列表。他们都是英文的。

我需要从给定的转储中下载这些文章及其讨论页。请让我知道从哪里开始。

0 投票
1 回答
512 浏览

mediawiki - 了解维基媒体转储

我正在尝试解析最新的 wikisource dump。更具体地说,我想获取Category:Ballads页面下的所有页面。为此,我下载了https://dumps.wikimedia.org/enwikisource/latest/enwikisource-latest-pages-articles.xml.bz2转储。在此转储中,相关页面包含除实际链接之外的所有内容:

我的问题是,我如何获得实际的页面内容和该页面中的所有链接?

谢谢!

0 投票
1 回答
37 浏览

bzip2 - 维基媒体浏览量压缩不起作用

我正在尝试分析每月的维基媒体浏览量统计数据。他们的每日转储还可以,但像 2021 年 6 月这样的月度报告(https://dumps.wikimedia.org/other/pageview_complete/monthly/2021/2021-06/pageviews-202106-user.bz2)似乎坏了:

知道如何提取数据吗?这里使用什么编码?可以是他们 Hive 分析集群中的 Parquet 文件吗?

0 投票
1 回答
366 浏览

python - 维基百科提取器问题 ValueError:找不到“fork”的上下文

我的目标是从维基百科 xml 转储 ( https://dumps.wikimedia.org/backup-index.html )中获取纯文本(没有链接、标签、参数和其他垃圾,只有文章文本)。我在 GitHub ( https://github.com/attardi/wikiextractor )上找到了 WikiExtractor python 脚本。下载并安装后(我使用 PyCharm IDE,Windows 10),我尝试开始使用

wikiextractor -cb 250K -o extracted D:\Wiki_dumps\ruwiktionary-20211120-pages-articles-multistream.xml.bz2

但后来(预处理后)我得到了以下错误

raise ValueError('cannot find context for %r' % method) from None ValueError: cannot find context for 'fork'

我试图将以下函数中的参数从“fork”更改为“spawn”(来自互联网的建议)

Process = get_context("fork").Process

但这只会导致

TypeError:无法腌制“_io.BufferedWriter”对象

我不知道如何修复它或它可能与什么有关

这是完整的堆栈跟踪:

信息:预处理 'D:\Wiki_dumps\ruwiktionary-20211120-pages-articles-multistream.xml.bz2' 以收集模板定义:这可能需要一些时间。

信息:预处理 100000 页

...

INFO:预处理 2300000 页

INFO:在 209.9s 内加载了 36839 个模板

信息:从 D:\Wiki_dumps\ruwiktionary-20211120-pages-articles-multistream.xml.bz2 开始提取页面。

回溯(最近一次通话最后):

_run_module_as_main 中的文件“C:\Users\Shurup\AppData\Local\Programs\Python\Python310\lib\runpy.py”,第 196 行,返回 _run_code(code, main_globals, None,

_run_code exec(code, run_globals) 中的文件“C:\Users\Shurup\AppData\Local\Programs\Python\Python310\lib\runpy.py”,第 86 行

文件“C:\Users\Shurup\PycharmProjects\pythonProject\venv\Scripts\ wikiextractor.exe_main_.py ”,第 7 行,在

文件“c:\users\shurup\pycharmprojects\pythonproject\venv\lib\site-packages\wikiextractor\WikiExtractor.py”,第 640 行,在主 process_dump(input_file, args.templates, output_path, file_size,

文件“c:\users\shurup\pycharmprojects\pythonproject\venv\lib\site-packages\wikiextractor\WikiExtractor.py”,第 359 行,在 process_dump Process = get_context("fork").Process

文件“C:\Users\Shurup\AppData\Local\Programs\Python\Python310\lib\multiprocessing\context.py”,第 239 行,在 get_context 返回 super().get_context(method)

文件“C:\Users\Shurup\AppData\Local\Programs\Python\Python310\lib\multiprocessing\context.py”,第 193 行,在 get_context 中引发 ValueError('cannot find context for %r' % method) from None

ValueError:找不到“fork”的上下文

这是带有“spawn”而不是“fork”参数的堆栈跟踪

“spawn”参数堆栈跟踪

0 投票
1 回答
25 浏览

mediawiki - 如何使用维基百科转储获取某个类别的主要文章?

类别的主条目

给定任何类别,如果存在,我需要获取相同的主要文章。