问题标签 [wikimedia-dumps]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
mediawiki - 我们在哪里可以得到 2010 年以来每年的维基百科转储?
我想知道前几年(2010-2019)是否有英文维基百科(enwiki)页面文章转储。
https://meta.wikimedia.org/wiki/Data_dump_torrents上的数据转储种子似乎在 2017 年之前的几年都没有转储。
wikipedia - 从 Wikipedia 转储中提取特定文章及其讨论页
我是网络爬虫的新手。我有以下维基百科转储链接https://dumps.wikimedia.org/backup-index.html。我有一个文章标题列表。他们都是英文的。
我需要从给定的转储中下载这些文章及其讨论页。请让我知道从哪里开始。
mediawiki - 了解维基媒体转储
我正在尝试解析最新的 wikisource dump。更具体地说,我想获取Category:Ballads页面下的所有页面。为此,我下载了https://dumps.wikimedia.org/enwikisource/latest/enwikisource-latest-pages-articles.xml.bz2
转储。在此转储中,相关页面包含除实际链接之外的所有内容:
我的问题是,我如何获得实际的页面内容和该页面中的所有链接?
谢谢!
bzip2 - 维基媒体浏览量压缩不起作用
我正在尝试分析每月的维基媒体浏览量统计数据。他们的每日转储还可以,但像 2021 年 6 月这样的月度报告(https://dumps.wikimedia.org/other/pageview_complete/monthly/2021/2021-06/pageviews-202106-user.bz2)似乎坏了:
知道如何提取数据吗?这里使用什么编码?可以是他们 Hive 分析集群中的 Parquet 文件吗?
python - 维基百科提取器问题 ValueError:找不到“fork”的上下文
我的目标是从维基百科 xml 转储 ( https://dumps.wikimedia.org/backup-index.html )中获取纯文本(没有链接、标签、参数和其他垃圾,只有文章文本)。我在 GitHub ( https://github.com/attardi/wikiextractor )上找到了 WikiExtractor python 脚本。下载并安装后(我使用 PyCharm IDE,Windows 10),我尝试开始使用
wikiextractor -cb 250K -o extracted D:\Wiki_dumps\ruwiktionary-20211120-pages-articles-multistream.xml.bz2
但后来(预处理后)我得到了以下错误
raise ValueError('cannot find context for %r' % method) from None ValueError: cannot find context for 'fork'
我试图将以下函数中的参数从“fork”更改为“spawn”(来自互联网的建议)
Process = get_context("fork").Process
但这只会导致
TypeError:无法腌制“_io.BufferedWriter”对象
我不知道如何修复它或它可能与什么有关
这是完整的堆栈跟踪:
信息:预处理 'D:\Wiki_dumps\ruwiktionary-20211120-pages-articles-multistream.xml.bz2' 以收集模板定义:这可能需要一些时间。
信息:预处理 100000 页
...
INFO:预处理 2300000 页
INFO:在 209.9s 内加载了 36839 个模板
信息:从 D:\Wiki_dumps\ruwiktionary-20211120-pages-articles-multistream.xml.bz2 开始提取页面。
回溯(最近一次通话最后):
_run_module_as_main 中的文件“C:\Users\Shurup\AppData\Local\Programs\Python\Python310\lib\runpy.py”,第 196 行,返回 _run_code(code, main_globals, None,
_run_code exec(code, run_globals) 中的文件“C:\Users\Shurup\AppData\Local\Programs\Python\Python310\lib\runpy.py”,第 86 行
文件“C:\Users\Shurup\PycharmProjects\pythonProject\venv\Scripts\ wikiextractor.exe_main_.py ”,第 7 行,在
文件“c:\users\shurup\pycharmprojects\pythonproject\venv\lib\site-packages\wikiextractor\WikiExtractor.py”,第 640 行,在主 process_dump(input_file, args.templates, output_path, file_size,
文件“c:\users\shurup\pycharmprojects\pythonproject\venv\lib\site-packages\wikiextractor\WikiExtractor.py”,第 359 行,在 process_dump Process = get_context("fork").Process
文件“C:\Users\Shurup\AppData\Local\Programs\Python\Python310\lib\multiprocessing\context.py”,第 239 行,在 get_context 返回 super().get_context(method)
文件“C:\Users\Shurup\AppData\Local\Programs\Python\Python310\lib\multiprocessing\context.py”,第 193 行,在 get_context 中引发 ValueError('cannot find context for %r' % method) from None
ValueError:找不到“fork”的上下文
这是带有“spawn”而不是“fork”参数的堆栈跟踪
mediawiki - 如何使用维基百科转储获取某个类别的主要文章?
给定任何类别,如果存在,我需要获取相同的主要文章。