好的,这就是我要找的。
我想进入 DOM 并寻找<a id>
以“thread_title_”开头的内容。以下是我尝试过的几件事:
// setup
def slurper = new XmlSlurper(new org.ccil.cowan.tagsoup.Parser())
def gurl = new URL("url")
gurl.withReader { gReader ->
def try1 = gHTML.body.find { it['@id'].startsWith("thread_title_") }
// fails: Caught: groovy.lang.MissingMethodException: No signature of method: groovy.util.slurpersupport.Attributes.startsWith() is applicable for argument types: (java.lang.String) values: [thread_title_]
def try2 = gHTML.body.find { it['@id'] =~ /thread_title_/ }
// fails: Caught: groovy.lang.MissingMethodException: No signature of method: groovy.util.slurpersupport.Attributes.startsWith() is applicable for argument types: (java.lang.String) values: [thread_title_]
def try3 = gHTML.body.find { it['@id'].name.startsWith("thread_title_") }
// fails: Caught: groovy.lang.MissingMethodException: No signature of method: groovy.util.slurpersupport.NodeChildren.startsWith() is applicable for argument types: (java.lang.String) values: [thread_title_]
def try4 = gHTML.body.find { it['@id'] == 'thread_title_745429' }
// doesn't fail, but doesn't return anything either
def try5 = gHTML.body.findAll { it.name() == 'a' && it.@id.startsWith('thread_title_') }
try5.eachWithIndex { row, i ->
println "rn: $i"
}
// no output
}
这是属性的 gdoc。我真的不想要“名字”,我想要“价值”。gpath 页面暗示了它的node.character.find { it['@id'] == '2' }
工作原理,这对我来说似乎很像 find..startsWith 。这个 stackoverflow 的答案是相似的,但是 startsWith 是不同的,并且似乎在整个事情中都受到了影响。第五个条目的灵感来自这个 stackoverflow 答案。
如果您担心输入数据有问题: $ curl --silent http://www.advrider.com/forums/forumdisplay.php?f=18 | grep thread_title | 厕所-l 43
这是使用curl | grep
上述内容的一些示例输出。
<a href="foo" id="thread_title_705760">text</a>
<a href="foo" id="thread_title_753701">text</a>
我安装了 Groovy 1.7.10。可以更新一下,不知道有没有用。