Simple_HTML_Dom 非常适合抓取特定标签中的内容,但我不确定在抓取文本时如何做超出基础的任何事情。这是我从中抓取的代码的示例:
<span>
Some code stuff.
</span>
FirstWord: 88
<span>
More code stuff.
</span>
如您所见,FirstWord 和 88 没有包含在任何类型的标签中。这使得它们很难被抓住。不过,问题是:FirstWord 总是一样的——只是数字发生了变化。
所以,我的想法是简单地告诉 Simple_HTML_Dom 获取紧跟在 FirstWord 之后的数字。问题是我不知道如何做到这一点。
任何帮助是极大的赞赏。