我想从这个网页中提取 XPATH //DIV[@id="ps-content"]:http: //www.amazon.com/dp/1449319432(保存为本地文件)
我想用一行命令行和最好的解析器之一来完成,比如 BaseX 或 Saxon-PE。
到目前为止,我(似乎)找到的最短解决方案是这两行:
java -jar tagsoup-1.2.1.jar <page.html >page.xhtml"
basex -ipage.xhtml "//DIV[@id='ps-content']"
但它返回的只是一个空行,而不是我预期的 html 代码块:
我的问题有两个:
- 我的命令行有什么问题?为什么他们不返回我的 XPATH 定义的预期的 html 代码块?
- 由于 BaseX 具有嵌入式 TagSoup 功能(请参阅https://www.odesk.com/leaving-odesk?ref=http%253A%252F%252Fdocs.basex.org%252Fwiki%252FParsers%2523HTML_Parser),我如何整合我的两条线成一行?