python - IMDb HTML 提取 - 用美丽的汤

Question

使用Beautiful Soup4，我试图获取一些似乎没有被标记的文本。（我可能错了，我对 HTML 不是很擅长）

我需要从页面的 IMDb 代码中提取几个值；特定电影的预算价值和最新的全球总价值。代码的长度因电影而异，因此如果有一种方法使用Beautiful Soup4来提取这些值而不考虑行号，那将非常有帮助。这是代码：

<div id="tn15content">
<h5>Budget</h5>
$165,000,000 (estimated)<br/>
<br/>

来自本页的源代码：IMDb Box Office page for Interstellar

我需要提取“$ 165,000,000”，以便我可以存储它等。

Gross 代码更令人困惑：

<h5>Gross</h5>
$188,020,017 (USA) (<a href="/date/03-19/">19 March</a> <a href="/year/2015/">2015</a>)<br/>$187,991,439 (USA) (<a href="/date/03-15/">15 March</a> <a href="/year/2015/">2015</a>)<br/>$187,930,551 (USA) (<a href="/date/03-14/">14 March</a> <a href="/year/2015/">2015</a>)<br/>$187,918,949 (USA) (<a href="/date/03-11/">11 March</a> <a href="/year/2015/">2015</a>)<br/>$187,888,097 (USA) (<a href="/date/03-08/">8 March</a> <a href="/year/2015/">2015</a>)<br/>

我需要的是最新的（全球数据进一步通过大量代码，由于此处的间距，我决定省略。

我知道这里解决了一个类似的问题，但是我无法使解决方案正常工作，我也无法评论要求用户提供答案以帮助我的特定解决方案，因为我是该网站的新手。我打算尝试让 IMDbPY 工作，但是我不确定如何让它与 WinPython 一起安装。

score 0 · Accepted Answer

0

使用正则表达式

\$([0-9,]+) \(USA\)

\$([0-9,]+) \(Worldwide\)

http://pythex.org/

于 2015-07-30T09:01:43.567 回答

python - IMDb HTML 提取 - 用美丽的汤

1 回答 1

Related

Reference