我是网络抓取的新手,我的限制是能够抓取 IMDB 中页面的标题
我现在正在使用这个:
String contentText = doc.select("title").first().text();
产生字符串:Thor: The Dark World (2013) - IMDb
如果有人可以帮助我,我正在尝试将标题和年份作为单独的字符串:
《雷神:黑暗世界》《2013》
提前致谢!
我是网络抓取的新手,我的限制是能够抓取 IMDB 中页面的标题
我现在正在使用这个:
String contentText = doc.select("title").first().text();
产生字符串:Thor: The Dark World (2013) - IMDb
如果有人可以帮助我,我正在尝试将标题和年份作为单独的字符串:
《雷神:黑暗世界》《2013》
提前致谢!
String docTitle = doc.select("title").first().text();
String movieName = docTitle.substring(0,docTitle.indexOf("("));
int movieReleaseDate = Integer.parseInt(docTitle.substring(docTitle.indexOf("(")+1,
docTitle.indexOf(")")));
好吧,如果您查看此页面的源代码,您将在文档中进一步看到以下内容:
<h1 class="header">
<span class="itemprop" itemprop="name">Thor: The Dark World</span>
<span class="nobr">(<a href="/year/2013/?ref_=tt_ov_inf" >2013</a>)</span>
</h1>
因此,您似乎可以在没有任何进一步黑客攻击的情况下获得所需的文本。