我正在尝试制作一个简单的 python 脚本来从网页中提取某些链接。我能够成功提取链接,但现在我想提取更多信息,例如bitrate,size,duration
该网页上给出的信息。
我正在使用下面的 xpath 来提取上述信息
>>> doc = lxml.html.parse('http://mp3skull.com/mp3/linkin_park_faint.html')
>>> info = doc.xpath(".//*[@id='song_html']/div[1]/text()")
>>> info[0:7]
['\n\t\t\t', '\n\t\t\t\t3.71 mb\t\t\t', '\n\t\t\t', '\n\t\t\t\t3.49 mb\t\t\t', '\n\t\t\t', '\n\t\t\t\t192 kbps', '2:41']
现在我需要的是,对于特定链接,我需要的信息以tuple
like的形式生成(bitrate,size,duration)
。
我上面提到的xpath
生成所需的信息,但它是ill-formatted
不可能用任何逻辑实现我所需的格式,至少我无法做到这一点。
那么,有没有办法以我的格式实现输出。?