参考页面:http ://www.ncbi.nlm.nih.gov/pubmed/?term=NS044283[GR]&dispmax=200&report=xml
XML 嵌入在<pre>
返回的 HTML 页面的标记下。我可以提取<pre>
标签的内容,但无法将其正确转换为 XML。我尝试使用to_xml
NodeSet 类的方法,但似乎行尾 ( \n
) 搞砸了解析。
这是我的代码片段:
url = "http://www.ncbi.nlm.nih.gov/pubmed/?term=NS044283[GR]&dispmax=200&report=xml"
doc = Nokogiri::XML(open(url))
pre = doc.xpath('//pre')
xml = pre.to_xml
contents = Nokogiri::XML(xml)
articles = contents.xpath('\\PubmedArticle')
(article = [])