我正在尝试编写一个爬虫来从使用 Java 中的正则表达式的站点获取菜单项。网站网址是 http://www.dineombaygarden.com/appetizers.html
如何使用 Pattern and Matcher 获取菜单项(蔬菜 Pakpora、洋葱或菠菜或土豆 Pakora ...)?
我的代码如下,但效果不佳。
public ArrayList<String> getMenuItems(String menuURL, String menuRegex) throws IOException{
ArrayList<String> items = new ArrayList<String>();
Document doc = Jsoup.connect(menuURL).post();
String text = doc.body().text();
System.out.println(text);
Pattern pattern = Pattern.compile(menuRegex);
Matcher matcher = pattern.matcher(text);
while(matcher.find()){
items.add(matcher.group());
}
return items;
}
String menuURL = "http://www.dinebombaygarden.com/appetizers.html";
String menuRegex = "[A-Z][a-z]+.{10,50}[$]\\s[\\d.]+.95";
这里的 menuRegex 不能正常工作。任何人都可以帮助解决这个问题?
非常感谢。