“pywikibot”的相关标签问题

0 投票

1 回答

176 浏览

mediawiki - 如何使用 Pywikibot 和 category.py 将类别添加到文件列表中？

我有一个包含 Wikimedia Commons 文件列表的文本文件 (in.txt)，我想将类别 [[Category:Fruits]] 添加到所有文件中，我该怎么做？

我找不到指定类别名称的选项，因此脚本提示我输入类别名称。但这很烦人，我需要在运行 Pywikibot 的脚本中指定要添加的类别名称。

目前，我的脚本如下所示：

mediawiki pywikibot

2017-11-22T05:44:17.633

0 投票

1 回答

207 浏览

python - 在某个修订发生后，我如何获得维基百科的文章文本？

我正在使用 Pywikibot 从 Wikipedia 获取文章文本，特别是 pywikibot.Page().get()。我也想要所有的 Wiki 标记。get() 方法将其提供给我，但仅适用于当前时间的页面。一旦发生指定的修订，有没有办法获取文章文本？

2017-11-22T23:22:17.707

0 投票

1 回答

143 浏览

mediawiki - 使用 Pywikibot 时如何添加内容以编辑摘要？

我现在正在使用 Pywikibot，在一个类别中添加大量文件，编辑摘要如下所示：“Bot: 添加类别采用 Sony DSC-WX350)”

我想添加文本“在自动模式下使用 Pywikibot”

怎么做？

mediawiki pywikibot

2017-11-24T08:25:04.807

0 投票

2 回答

129 浏览

python - 我如何知道 pywikibot 的特定索引模板参数为空？

我正在尝试在其 Index Wikisource page中填写一本书的页码。下面的代码在具体的 pageNumber 参数中写得很好。如果页面是空的，它看起来很好。但如果我再次运行代码，由于串联，67 变为 6767。我怎么知道 pageNumber 参数 ( '|Number of pages=') 为空？或者如果参数已经填写，我如何在代码中设置跳过选项。

编写代码；-

python pywikibot

2018-03-17T10:53:51.883

0 投票

1 回答

98 浏览

python-3.x - 如何在通过python3读取一行csv文件时删除前一行

我想从这个 wiki 类别中清理 12,000 个 wiki 页面。为此，我将所有 12,000 个维基页面保存在一个 csv 文件中。当我的代码运行时，它会一一修改页面。如何在通过 python3 读取 CSV 文件的（下）行时删除前一行？如果可能的话，很容易将 csv 文件的剩余行分享给另一个 wiki 贡献者。否则，我应该手动打开 csv 文件以删除“已完成的行”。

我的代码简化了；-

python-3.x csv pywikibot

2018-05-13T11:04:52.817

0 投票

1 回答

200 浏览

python - 如何使用 Mediawiki API 在 python 中创建带有长文本和列表的页面

我最近学会了如何从烹饪网站上抓取我妈妈的食谱。我目前的目标是将这些食谱放入自托管的 mediawiki 服务器。由于我只知道 python，我正在尝试使用 GET 和 POST 请求以及 API 来创建这些页面。我已经尝试了各种 python 脚本，例如 pywikibot、mwclient 和 wptools，以取得各种形式的成功。后两者在编辑/创建 wiki 页面时确实缺乏文档，并且 pywikibot 有一些错误（已报告）阻止我登录或使用 pagefromfile.py 脚本。

幸运的是， mediawiki 网站上有一个示例 python 代码。

此代码创建一个包含相关部分和消息的页面，如下所示。

问题：

如何创建多个节标题？
如果我输入 wiki 代码，为什么 mediawiki 不格式化它？例如，如果我发送消息“# 6db oriasi nyers”，那么 mediawiki 将创建一条带有“# 6db oriasi nyers”而不是“1. 6db oriasi nyers”的消息。

python mediawiki mediawiki-api pywikibot

2018-06-06T15:49:17.390

0 投票

0 回答

148 浏览

python - 字符串匹配/搜索python

我正在尝试抓取和清理维基百科数据。我有一个包含维度的数据字段，如下所示。

提取维度很容易，但是考虑到条目有多少变化，提取单位相当困难。解决这个问题的最佳方法是什么？

我已经开始使用；

应该提取所有尺寸，然后我将只保存前 2 个数字匹配，保存一个单位的第一个匹配（'m'，'metre'，'metres'，'y'，'yard'，'yds ','yd','ft'.....）然后我可以稍后将所有转换为米。

我只是不确定如何保存第一场比赛。

python regex wikipedia pywikibot

2018-06-10T20:09:04.743

0 投票

1 回答

182 浏览

mediawiki - pywikibot 无法上传大文件

在 Google Compute Engine 服务器 ( Linux instance-1 4.9.0-6-amd64 #1 SMP Debian 4.9.88-1+deb9u1 (2018-05-07) x86_64 GNU/Linux) 上，pywikibot 无法上传大文件并出现以下错误：

pywikibot.data.api.APIError: missingparam: One of the parameters "filekey", "file" and "url" is required. [help:See https://chinadigitaltimes.net/space/api.php for API usage. Subscribe to the mediawiki-api-announce mailing list at <https://lists.wikimedia.org/mailman/listinfo/mediawiki-api-announce> for notice of API deprecations and breaking changes.] 1 pages read 0 pages written Script terminated successfully.

我需要上传最大 2GB 的文件。我怎样才能用 pywikibot 做到这一点？

mediawiki mediawiki-api pywikibot

2018-06-15T05:37:54.783

0 投票

2 回答

206 浏览

regex - 如何计算维基百科原始文本中的引用/参考数量？

我正在构建一个模型来按文章质量对原始维基百科文本进行分类（维基百科有一个包含约 30,000 篇手工评分文章及其相应质量等级的数据集。）。尽管如此，我正在尝试找出一种通过算法计算页面上出现的引用数量的方法。

举个简单的例子：这是原始 Wiki 页面的摘录：

'[[Image:GD-FR-Paris-Louvre-Sculptures034.JPG|320px|thumb|Tomb of Philippe Pot, governor of [[Burgundy (region)|Burgundy]] under [[Louis XI]]|alt=A large sculpture of six life-sized black-cloaked men, their faces obscured by their hoods, carrying a slab upon which lies the supine effigy of a knight, with hands folded together in prayer. His head rests on a pillow, and his feet on a small reclining lion.]]\n[[File:Sejong tomb 1.jpg|thumb|320px|Korean tomb mound of King [[Sejong the Great]], d. 1450]]\n[[Image:Istanbul - Süleymaniye camii - Türbe di Roxellana - Foto G. Dall\'Orto 28-5-2006.jpg|thumb|320px|[[Türbe]] of [[Roxelana]] (d. 1558), [[Süleymaniye Mosque]], [[Istanbul]]]]\n\'\'\'Funerary art\'\'\' is any work of [[art]] forming, or placed in, a repository for the remains of the [[death|dead]]. [[Tomb]] is a general term for the repository, while [[grave goods]] are objects—other than the primary human remains—which have been placed inside.<ref>Hammond, 58–9 characterizes [[Dismemberment|disarticulated]] human skeletal remains packed in body bags and incorporated into [[Formative stage|Pre-Classic]] [[Mesoamerica]]n [[mass burial]]s (along with a set of primary remains) at Cuello, [[Belize]] as "human grave goods".</ref>

到目前为止，我已经得出结论，我可以通过计算出现次数来找到图像的数量[[Image:。我希望我可以为参考做类似的事情。事实上，在比较原始 Wiki 页面和它们相应的实时页面之后，我想我能够确定它</ref>对应于 Wiki 页面上引用的结束符号。-->例如：这里，你可以看到作者在段落末尾做了一个陈述，并在{text}中引用了Hammond, 58–9<ref></ref>

如果有人熟悉 Wiki 的原始数据并且可以对此有所了解，请告诉我！另外，如果你知道更好的方法，也请告诉我！

提前谢谢了！

regex nlp wikipedia wikipedia-api pywikibot

2018-08-19T01:51:59.883

0 投票

1 回答

812 浏览

python - 从包含python中URL列表的文本文件中打印文本文件中URL的内容

我有一个包含 URL 列表的文本文件，我愿意在另一个文本文件中打印 URL 的内容，并将 URL 作为标题。我已经使用这个项目文件https://pypi.org/project/Wikipedia-API/来提取内容，但是我必须一个接一个地输入链接，我不想深入研究，因为我的列表是巨大的，每个文本文件至少有 3000 个链接。

谁能帮我解决这个问题，将不胜感激。

编辑：

我通过以下方式尝试过，但是输出的txt文件中没有内容。

这是我使用的 txt 文件https://pastebin.com/Y4bwsHGB，这是我需要使用的文本文件：https://pastebin.com/SXDAu8jV。

提前致谢。

问题：

最终修复：

python database python-3.x wikipedia-api pywikibot

2018-10-15T03:29:32.483

问题标签 [pywikibot]

Reference