我正在制作一个刮取产品价格的刮刀,我需要像这个网站 div 类一样忽略它,但它对于所有网站都是可变的,所以这对我来说真的是个问题。你可以在这里看到我刮第一个元素,它是这样的
1 - <div class="ProductPrice">
<span id="ctl00_ContentPlaceHolder1_Category1_ctrl_0_ctrl_7_mainGrid_ctl00_PUnit_lblPriceWithTax">47,00 TL</span>
</div>
然后我刮第二个这个再次刮标签(标签名称可以更改,所以请在回答之前考虑这个)
2 - <span id="ctl00_ContentPlaceHolder1_Category1_ctrl_0_ctrl_7_mainGrid_ctl00_PUnit_lblPriceWithTax">47,00 TL</span>
我的代码是:
Elements allElements = newDocument.getAllElements();
for (int j = 0; j < allElements.size(); j++) {
Element element = allElements.get(j);
if (element.text().matches(regex){
// Writing to console.
}
}