xpath - 如何从网页复制特定元素

Question

我的目标是从网页中获取特定的文本区域。想象一下，如果您能够在页面上的任何位置绘制一个矩形，并且该矩形中的所有内容都将被复制到您的剪贴板中。我正在使用 FireBug（请随意提出其他解决方案，我已经搜索了插件或书签，但没有找到任何有用的东西），它的控制台窗口和 XPath 用于此目的。我想要获取的值采用以下格式（这是从 FireBug“HTML 检查”中观察到的）：

<span class="number3_0" title="Numbers">3.00</span>

所以我最终得到以下代码，我从 FireBug 控制台发出： $x("//span[@title='Numbers']/text()")

在此之后我得到这样的东西：

[<TextNode textContent="2.00">, <TextNode textContent="2.00">, <TextNode textContent="2.00">, <TextNode textContent="2.00">, <TextNode textContent="3.00">]

在此之后，我单击（用鼠标右键）[并选择，Inspect in DOM panel然后按ctrl+a以下格式复制/粘贴数据：

0   <TextNode textContent="2.00">
1   <TextNode textContent="2.00">
2   <TextNode textContent="2.00">
3   <TextNode textContent="2.00">
4   <TextNode textContent="3.00">

正如您可以假设的值textContent是我感兴趣的信息。我尝试修改原始 XPath 查询以仅返回这些数字但没有运气。我曾是：

string()按照此处的建议将整个查询包装到Xpath - 仅获取节点内容而不获取其他元素

试图弄清楚这个是如何工作的，通过 XPath 等方法在节点之间提取文本。

为了能够获得所需的值，我使用了一些 bash-scripting + xml-formatting，在完成这个乏味/容易出错的任务之后，我得到了以下格式：

<?xml version="1.0"?>
<head>
  <TextNode textContent="2.00"/>
  <TextNode textContent="2.00"/>
  <TextNode textContent="2.00"/>
  <TextNode textContent="2.00"/>
  <TextNode textContent="3.00"/>
  <TextNode textContent="3.00"/>
</head>

现在我用xmlstarlet以下方式获取这些值（是的，我知道我可以在上一步中使用正则表达式并拥有我需要的所有数据。但我对 DOM/XPath 解析很感兴趣，并试图弄清楚它是如何工作的）：

cat input | xmlstarlet sel -t -m "//TextNode" -v 'concat(@textContent," 
")'

这最终给了我想要的输出：

2.00
2.00
2.00
2.00
3.00

我的问题有点笼统：

这个可怕的漫长过程如何自动化？
如何修改 FireBug 中使用的原始 XPath 字符串 $x("//span[@title='Numbers']/text()")以立即仅获取数字并节省自己的其余步骤？
我还不是很熟悉xmlstarlet，尤其是选择（sel）模式让我抓狂。我见过以下选项的各种组合：

-c 或 --copy-of - 打印 XPATH 表达式的副本

-v 或 --value-of - 打印 XPATH 表达式的值

-o 或 --output - 输出字符串文字

-m 或 --match - 匹配 XPATH 表达式

有人可以解释一下什么时候使用哪个吗？如果可能的话，很高兴看到具体的例子。如果感兴趣，有提到的选项的各种组合，我不太了解： http ://www.grahl.ch/blog/minutiae-return-content-element-xmlstarlet 使用 xmlstarlet 提取和转储元素测试 XML属性

4.）关于最后一个问题xmlstarlet是一个装饰性的语法糖，如何获得漂亮的换行符分隔输出，正如你所看到的，我通过添加换行符作为分隔符“作弊”，但是当我尝试使用这样的转义字符时：

cat input | xmlstarlet sel -t -m "//TextNode" -v 'concat(@textContent,"\n")'

它没有用，我从中学到很多东西的原始参考也以这种“丑陋”的方式使用它http://www.ibm.com/developerworks/library/x-starlet/index.html

PS：也许这些所有步骤都可以使用 curl + xmlstarlet 来简化，但是对于需要登录或其他类似内容的页面也可以使用 FireBug 选项。

感谢所有的想法。

score 2 · Accepted Answer

根据我收集的信息，您想从标题为“数字”的跨度中收集数字并将其作为字符串。

尝试以下操作：

var numberNodes = document.querySelectorAll('span[title="Numbers"]')
function giveText(me) { return me.textContent; }
Array.prototype.map.call(numberNodes, giveText).join("\n");

第一行使用文档中的 CSS 查询选择器选择所有节点（这意味着您不需要 XPath）。第二行创建一个返回节点文本内容的函数。第三行numberNodes使用giveText函数映射列表中的元素，生成一个数字数组，最后用换行符将它们连接起来。

在此之后，您可能不需要此 xmlstarlet。

score 1 · Accepted Answer

$$("<CSS3 selector>")并且$x("<XPATH>")在 Firebug 中实际上返回一个真正的数组（不像 document.querySelectorAll() 或 document.evaluate 的结果）。所以他们更方便。

使用 Firefox + Firebug：

var numbersNode = $x("//span[@title='Numbers']/text()");
var numbersText = numbersNode.map(function(numberNode) {
    return numberNode.textContent;
}).join("\n");
// Special command of Firebug to copy text into clipboard:
copy(numbersText);

您甚至可以使用 EcmaScript 6 的箭头函数以一种紧凑的方式进行操作：

copy($x("//span[@title='Numbers']/text()").map(x => x.textContent).join("\n"));

如果您$$('span[title="Numbers"]')按照威廉纳蒙塔斯的建议选择，则相同。

弗洛朗

xpath - 如何从网页复制特定元素

2 回答 2

Related

Reference