我正在使用 XPath 从 HTML 页面中选择一个部分。但是,当我使用 XPath 提取节点时,它只正确选择了 HTML 标记周围的文本,而不是HTML 标记本身。
示例 HTML
<body>
<div>
At first glance you may ask, “what <i>exactly</i>
do you mean?” It means that we want to help <b>you</b> figure...
</div>
</body>
我有以下 XPath
/body/div
我得到以下
At first glance you may ask, “what do you mean?” It means that we want to help figure...
我想
At first glance you may ask, “what <i>exactly</i> do you mean?” It means that we want to help <b>you</b> figure...
如果您在示例 HTML 中注意到内容中有 a<i/>
和<b />
HTML 标记。当我提取内容时,这些标签中的单词会“丢失”。
如果这有所作为,我在 PHP 中使用 SimpleXML。