我有一个 XML 配置(ScreenScraper),可以在 WebHarvest 的可执行版本中正确执行我想要的操作。我对如何通过 Java 执行它感到困惑。
问问题
547 次
1 回答
1
您只需要从库中导入一些类:
import org.webharvest.definition.ScraperConfiguration;
import org.webharvest.runtime.Scraper;
import org.webharvest.runtime.variables.Variable;
使用您的 config.xml 文件创建对象 ScraperConfiguration:
ScraperConfiguration config = null;
try {
config = new ScraperConfiguration("/path/to/config.xml");
} catch (FileNotFoundException e) {
e.printStackTrace();
}
创建具有工作目录路径的对象刮板:
Scraper scraper = new Scraper(config, "/tmp/");
并执行配置:
scraper.execute();
您还可以在配置执行后访问变量:
String stringVar =
((Variable)scraper.getContext().getVar("my_string_var")).toString();
List<Variable> listVar =
((Variable) scraper.getContext().getVar("my_list_var")).toList();
于 2012-07-31T23:02:31.683 回答