我想创建一个演员和他们演过的电影的图形数据库。为了获得演员和电影的列表,我正在尝试使用 pywikibot 解析器,但是当我只想要页面的电影部分时,我只能获得整页。有没有办法解析页面,以便我可以获取电影目录?这是我到目前为止所做的:
import pywikibot as pw
site = pw.Site()
page = pw.Page(site, actor_name) #will be put into loop to get multiple actors
print page.text #returns full text of the page in format below
print page.linkedPages #returns linked pages
一个想法是返回与演员相关的所有链接页面,因为大多数电影都是链接的。我获取文本数据的格式如下:
{{Infobox person
| name =
| birth name =
}}
Summary
==Early life==
==Career==
==Filmography==
我该怎么做才能只获取页面的电影部分?