0

我正在编写一个脚本来根据“X 集列表”维基百科页面上的信息重命名文件,其中 X 是电视节目的名称。例如:http ://en.wikipedia.org/wiki/List_of_MythBusters_episodes 。我正在使用 Wikipedia API 从文章中抓取数据。

我希望脚本能够处理任何可用的电视节目,但我不知道如何确定该节目是否有 Wikipedia 文章。给定您要搜索的节目的标题,确定包含剧集列表的文章是否存在以及如果存在,返回 URL 的最佳方法是什么?我认为最好的方法可能是以某种方式浏览维基百科并开发一个数据库/字典/哈希图将节目链接到他们各自的文章 URL,但我不熟悉如何做这样的事情。

我不能简单地猜测 URL 是什么,因为例如 Office 有一篇美国版的文章和一篇单独的英国版文章,有时文章的 URL 不遵循标准格式,比如神秘博士它使用连续剧而不是剧集这个词。

目前,为了测试一些基本的节目,我有一个硬编码的字典:

shows = {"The Office" : "List_of_The_Office_(U.S._TV_series)_episodes", \
         "Breaking Bad" : "List_of_Breaking_Bad_episodes", \
         "Community" : "List_of_Community_episodes", \
         "Parks and Recreation" : "List_of_Parks_and_Recreation_episodes", \
         "Game of Thrones" : "List_of_Game_of_Thrones_episodes", \
         "Doctor Who (2005+)" : "List_of_Doctor_Who_serials", \
         "Adventure Time" : "List_of_Adventure_Time_episodes", \
         "Suits" : "List_of_Suits_episodes"}

显然,我不想为每一个可能的节目都硬编码。任何建议表示赞赏!

4

1 回答 1

1

在我看来,这是你最好的选择。在 Doctor Who 的情况下,该页面是指向正确名称的重定向。在 The Office 的情况下,它是对消歧页面的重定向。List of Show Name episodes

于 2013-05-26T23:51:23.273 回答