问题标签 [pywikibot]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
mediawiki - 如何使用 Pywikibot 和 category.py 将类别添加到文件列表中?
我有一个包含 Wikimedia Commons 文件列表的文本文件 (in.txt),我想将类别 [[Category:Fruits]] 添加到所有文件中,我该怎么做?
我找不到指定类别名称的选项,因此脚本提示我输入类别名称。但这很烦人,我需要在运行 Pywikibot 的脚本中指定要添加的类别名称。
目前,我的脚本如下所示:
python - 在某个修订发生后,我如何获得维基百科的文章文本?
我正在使用 Pywikibot 从 Wikipedia 获取文章文本,特别是 pywikibot.Page().get()。我也想要所有的 Wiki 标记。get() 方法将其提供给我,但仅适用于当前时间的页面。一旦发生指定的修订,有没有办法获取文章文本?
mediawiki - 使用 Pywikibot 时如何添加内容以编辑摘要?
我现在正在使用 Pywikibot,在一个类别中添加大量文件,编辑摘要如下所示:“Bot: 添加类别采用 Sony DSC-WX350)”
我想添加文本“在自动模式下使用 Pywikibot”
怎么做?
python - 我如何知道 pywikibot 的特定索引模板参数为空?
我正在尝试在 其 Index Wikisource page中填写一本书的页码。下面的代码在具体的 pageNumber 参数中写得很好。如果页面是空的,它看起来很好。但如果我再次运行代码,由于串联,67 变为 6767。我怎么知道 pageNumber 参数 ( '|Number of pages='
) 为空?或者如果参数已经填写,我如何在代码中设置跳过选项。
编写代码;-
python-3.x - 如何在通过python3读取一行csv文件时删除前一行
我想从这个 wiki 类别中清理 12,000 个 wiki 页面。为此,我将所有 12,000 个维基页面保存在一个 csv 文件中。当我的代码运行时,它会一一修改页面。如何在通过 python3 读取 CSV 文件的(下)行时删除前一行?如果可能的话,很容易将 csv 文件的剩余行分享给另一个 wiki 贡献者。否则,我应该手动打开 csv 文件以删除“已完成的行”。
我的代码简化了;-
python - 如何使用 Mediawiki API 在 python 中创建带有长文本和列表的页面
我最近学会了如何从烹饪网站上抓取我妈妈的食谱。我目前的目标是将这些食谱放入自托管的 mediawiki 服务器。由于我只知道 python,我正在尝试使用 GET 和 POST 请求以及 API 来创建这些页面。我已经尝试了各种 python 脚本,例如 pywikibot、mwclient 和 wptools,以取得各种形式的成功。后两者在编辑/创建 wiki 页面时确实缺乏文档,并且 pywikibot 有一些错误(已报告)阻止我登录或使用 pagefromfile.py 脚本。
幸运的是, mediawiki 网站上有一个示例 python 代码。
此代码创建一个包含相关部分和消息的页面,如下所示。
问题:
- 如何创建多个节标题?
- 如果我输入 wiki 代码,为什么 mediawiki 不格式化它?例如,如果我发送消息“# 6db oriasi nyers”,那么 mediawiki 将创建一条带有“# 6db oriasi nyers”而不是“1. 6db oriasi nyers”的消息。
python - 字符串匹配/搜索python
我正在尝试抓取和清理维基百科数据。我有一个包含维度的数据字段,如下所示。
提取维度很容易,但是考虑到条目有多少变化,提取单位相当困难。解决这个问题的最佳方法是什么?
我已经开始使用;
应该提取所有尺寸,然后我将只保存前 2 个数字匹配,保存一个单位的第一个匹配('m','metre','metres','y','yard','yds ','yd','ft'.....)然后我可以稍后将所有转换为米。
我只是不确定如何保存第一场比赛。
mediawiki - pywikibot 无法上传大文件
在 Google Compute Engine 服务器 ( Linux instance-1 4.9.0-6-amd64 #1 SMP Debian 4.9.88-1+deb9u1 (2018-05-07) x86_64 GNU/Linux
) 上,pywikibot 无法上传大文件并出现以下错误:
pywikibot.data.api.APIError: missingparam: One of the parameters "filekey", "file" and "url" is required. [help:See https://chinadigitaltimes.net/space/api.php for API usage. Subscribe to the mediawiki-api-announce mailing list at <https://lists.wikimedia.org/mailman/listinfo/mediawiki-api-announce> for notice of API deprecations and breaking changes.]
1 pages read
0 pages written
Script terminated successfully.
我需要上传最大 2GB 的文件。我怎样才能用 pywikibot 做到这一点?
regex - 如何计算维基百科原始文本中的引用/参考数量?
我正在构建一个模型来按文章质量对原始维基百科文本进行分类(维基百科有一个包含约 30,000 篇手工评分文章及其相应质量等级的数据集。)。尽管如此,我正在尝试找出一种通过算法计算页面上出现的引用数量的方法。
举个简单的例子:这是原始 Wiki 页面的摘录:
'[[Image:GD-FR-Paris-Louvre-Sculptures034.JPG|320px|thumb|Tomb of Philippe Pot, governor of [[Burgundy (region)|Burgundy]] under [[Louis XI]]|alt=A large sculpture of six life-sized black-cloaked men, their faces obscured by their hoods, carrying a slab upon which lies the supine effigy of a knight, with hands folded together in prayer. His head rests on a pillow, and his feet on a small reclining lion.]]\n[[File:Sejong tomb 1.jpg|thumb|320px|Korean tomb mound of King [[Sejong the Great]], d. 1450]]\n[[Image:Istanbul - Süleymaniye camii - Türbe di Roxellana - Foto G. Dall\'Orto 28-5-2006.jpg|thumb|320px|[[Türbe]] of [[Roxelana]] (d. 1558), [[Süleymaniye Mosque]], [[Istanbul]]]]\n\'\'\'Funerary art\'\'\' is any work of [[art]] forming, or placed in, a repository for the remains of the [[death|dead]]. [[Tomb]] is a general term for the repository, while [[grave goods]] are objects—other than the primary human remains—which have been placed inside.<ref>Hammond, 58–9 characterizes [[Dismemberment|disarticulated]] human skeletal remains packed in body bags and incorporated into [[Formative stage|Pre-Classic]] [[Mesoamerica]]n [[mass burial]]s (along with a set of primary remains) at Cuello, [[Belize]] as "human grave goods".</ref>
到目前为止,我已经得出结论,我可以通过计算出现次数来找到图像的数量[[Image:
。我希望我可以为参考做类似的事情。事实上,在比较原始 Wiki 页面和它们相应的实时页面之后,我想我能够确定它</ref>
对应于 Wiki 页面上引用的结束符号。-->例如:这里,你可以看到作者在段落末尾做了一个陈述,并在{text}中引用了Hammond, 58–9<ref>
</ref>
如果有人熟悉 Wiki 的原始数据并且可以对此有所了解,请告诉我!另外,如果你知道更好的方法,也请告诉我!
提前谢谢了!
python - 从包含python中URL列表的文本文件中打印文本文件中URL的内容
我有一个包含 URL 列表的文本文件,我愿意在另一个文本文件中打印 URL 的内容,并将 URL 作为标题。我已经使用这个项目文件https://pypi.org/project/Wikipedia-API/来提取内容,但是我必须一个接一个地输入链接,我不想深入研究,因为我的列表是巨大的,每个文本文件至少有 3000 个链接。
谁能帮我解决这个问题,将不胜感激。
编辑:
我通过以下方式尝试过,但是输出的txt文件中没有内容。
这是我使用的 txt 文件https://pastebin.com/Y4bwsHGB,这是我需要使用的文本文件:https://pastebin.com/SXDAu8jV。
提前致谢。
问题:
最终修复: