我正在尝试从网站上抓取药物清单。我正在使用 JSOUP 来解析 Html。
这是我的代码:
URL url = new URL("http://www.medindia.net/drug-price/index.asp?alpha=a");
Document doc1 = Jsoup.parse(url, 0);
Elements rows = doc1.getElementsByAttributeValue("style", "padding-left:5px;border-right:1px solid #A5A5A5;");
for(Element row : rows){
String htm = row.text();
if(!(htm.equals("View Price")||htm.contains("Show Details"))) {
System.out.println(htm);
System.out.println();
}
}
这是我得到的输出:
PS这不是完整的输出,但是由于我无法截取完整输出的屏幕截图,所以我只是显示了它。
我需要知道两件事:
问题 1.为什么我在每个药物名称前都有一个额外的空格,为什么我在某些药物名称后会出现额外的新行?
问题 2.如何解决此问题?