使用Beautiful Soup4,我试图获取一些似乎没有被标记的文本。(我可能错了,我对 HTML 不是很擅长)
我需要从页面的 IMDb 代码中提取几个值;特定电影的预算价值和最新的全球总价值。代码的长度因电影而异,因此如果有一种方法使用Beautiful Soup4来提取这些值而不考虑行号,那将非常有帮助。这是代码:
<div id="tn15content">
<h5>Budget</h5>
$165,000,000 (estimated)<br/>
<br/>
来自本页的源代码:IMDb Box Office page for Interstellar
我需要提取“$ 165,000,000”,以便我可以存储它等。
Gross 代码更令人困惑:
<h5>Gross</h5>
$188,020,017 (USA) (<a href="/date/03-19/">19 March</a> <a href="/year/2015/">2015</a>)<br/>$187,991,439 (USA) (<a href="/date/03-15/">15 March</a> <a href="/year/2015/">2015</a>)<br/>$187,930,551 (USA) (<a href="/date/03-14/">14 March</a> <a href="/year/2015/">2015</a>)<br/>$187,918,949 (USA) (<a href="/date/03-11/">11 March</a> <a href="/year/2015/">2015</a>)<br/>$187,888,097 (USA) (<a href="/date/03-08/">8 March</a> <a href="/year/2015/">2015</a>)<br/>
我需要的是最新的(全球数据进一步通过大量代码,由于此处的间距,我决定省略。
我知道这里解决了一个类似的问题,但是我无法使解决方案正常工作,我也无法评论要求用户提供答案以帮助我的特定解决方案,因为我是该网站的新手。我打算尝试让 IMDbPY 工作,但是我不确定如何让它与 WinPython 一起安装。