我正在编写一些代码,该代码会为页面上的两个 css 类抓取页面。我只是为此使用 Hpricot 搜索方法:
webpage.search("body").search("div.first_class | div.second_class")
...对于找到的每个项目,我创建一个对象并将其放入一个数组中,除了一件事之外,这很好用。
搜索将遍历整个 html 页面,并在每次遇到“.first_class”时将一个对象添加到一个数组中,然后它将再次遍历文档以查找“.second_class”,从而得到包含所有的最终数组在数组中以错误的顺序搜索项目,即所有“.first_class”对象,然后是所有“.second_class”对象。
有没有一种方法可以让我一次性搜索文档并在每次遇到指定类之一时将一个对象添加到数组中,给我一个按它们遇到的顺序排列的项目数组我正在抓取的页面?
非常感谢任何帮助。谢谢