我正在尝试在 Python 中编写一个 HTML 解析器,该解析器将 URL 或 URL 列表作为其输入,并以以下格式输出有关每个 URL 的特定数据:
网址:数据1:数据2
可以在每个 URL 的完全相同的 HTML 节点中找到数据点。它们始终位于相同的起始标签和结束标签之间。如果有人愿意帮助业余 python 程序员完成工作,将不胜感激。如果您能想出一种方法来输出可以轻松复制并粘贴到excel文档中以供后续数据分析的信息,则加分!
例如,假设我想输出特定 YouTube 视频的观看次数。对于 URL http://www.youtube.com/watch?v=QOdW1OuZ1U0,观看次数约为 360 万。对于所有 YouTube 视频,此编号以以下格式在页面源中找到:
<span class="watch-view-count ">
3,595,057
</span>
幸运的是,这些确切的标签只能在特定的 YouTube 视频页面上找到一次。这些开始和结束标记可以输入到程序中,也可以在必要时内置并修改。该程序的输出将是:
http://www.youtube.com/watch?v=QOdW1OuZ1U0:3,595,057(或 3595057)。