我想从 html 代码中提取图像的 Url,例如下面的 html 代码:
<div class="imageContainer">
<img src="http://ecx.images-amazon.com/images/I/41%2B7N48F7JL._SL135_.jpg"
alt="" width="135" height="94"
style="margin-top: 21px; margin-bottom:20px;" /></div>
我从网上得到了一个代码
String regexImage = "(?<=<img (*)src=\")[^\"]*";
Pattern pImage = Pattern.compile(regexImage);
Matcher mImage = pImage.matcher(elementString);
while (mImage.find()) {
String imagePath = mImage.group();}
它正在工作并且具有重新(正则表达式)
"(?<=<img src=\")[^\"]*"
但现在我想从 html 代码中提取图像 url,如下所示:
<img onerror="img_onerror(this);" data-logit="true" data-pid="MOBDDDBRHVWQZHYY"
data-imagesize="thumb"
data-error-url="http://img1a.flixcart.com/mob/thumb/mobile.jpg"
src="http://img8a.flixcart.com/image/mobile/h/y/y/samsung-galaxy-s-duos-s7562-125x125-imadddczzr4qhqnc.jpeg"
alt="Samsung Galaxy S Duos S7562: Mobile"
title="Samsung Galaxy S Duos S7562: Mobile"></img></a>
<div class="bp-offer-image image-offer"></div>
img 和 src= 之间有代码的地方
我正在尝试正则表达式,"(?<=<img (*)src=\")[^\"]*"
但它不起作用。所以请给我正则表达式,以便我可以 http://ecx.images-amazon.com/images/I/61xqOQ3Sj8L._SL135_.jpg
从上面的 html 代码中提取图像 url 即。
而且,首先我使用 Jsoup 解析 html 以提取包含 img 的标签:
doc = Jsoup.connect(urlFromBrowse).get();
Elements elements = doc.getElementsByTag("img");
for (Element element : elements) {
String elementString = element.toString();
并将这个 elementString 传递给 matcher() 肉类。从我得到的标签(元素)中,我使用正则表达式来解析图像 url、名称等内容。