我正在尝试从 Google 购物(http://www.google.co.uk/m/products?q=5010459007289,电话网站)中提取产品名称信息。
产品名称总是出现在“owb63p”类的范围之间,例如
"<span class="owb63p">Highland Spring Sports Bottle 750 Ml</span>"
我是 JSoup 的新手,我可以连接 URL 并获取整个文档,但我只需要帮助设置它,以便我只获取我需要的信息。
谢谢
在 JSoup 中会是这样的:
Document doc = Jsoup.connect("www.google.co.uk/m/products?q=5010459007289").get();
Element title = doc.select("span.owb63p").first();
System.out.println(title.text());
看起来JSoup 示例具有您正在寻找的内容。
我不太喜欢 JSoup,但是使用 apache jericho它会喜欢:
Source source=new Source(new URL(sourceUrlString));
String content=source.getFirstElementByClass( "owb63p" ).getContent().toString();
你可以试试
doc.select("span").get(0).data();
或者您可以简单地迭代多个跨度标签...