如何使用 Yahoo Pipes 获取页面名称?
我正在制作一个新闻/博客聚合器,并且需要知道信息来自的站点的名称(bbc、cnn、fox 等)。
我需要用 REGEX 做这个吗?
有谁能帮忙吗?
如何使用 Yahoo Pipes 获取页面名称?
我正在制作一个新闻/博客聚合器,并且需要知道信息来自的站点的名称(bbc、cnn、fox 等)。
我需要用 REGEX 做这个吗?
有谁能帮忙吗?
您可以使用Sources菜单中的XPath Fetch Page或Fetch Feed模块来获取页面。也许和其他人也一样。
之后,您可以使用各种运算符(可能是Regex或其他运算符)提取页面名称本身,具体取决于您使用的源页面和您想要获得的输出。
一般来说,您的问题太宽泛,难以回答。为了让您开始,我创建了一个示例管道,从这篇文章中提取您的问题的标题,这基本上是当前页面的“页面名称”。
http://pipes.yahoo.com/pipes/pipe.info?_id=668acf3f807c30d7b75f12459edd3252
我使用带有参数的XPath Fetch Page :
//div[@id="question-header"]
我div
通过检查此页面的源代码获得了该路径,我看到这div#question-header
是一个问题的容器。我本可以选择更深的内部容器或更高级别的容器。这完全取决于您需要的其他信息量。您想从页面获得的信息越多,您选择的容器级别就越高。
接下来,我使用Create RSS运算符创建了一个适当的 RSS 提要,并带有以下参数:
h1.a
h1.a.href
我选择这些元素是因为在我用 xpath 提取的容器中,页面名称在里面h1 a
。在 Yahoo Pipes 中,您使用点作为路径分隔符。
我找到了这个示例管道http://pipes.yahoo.com/pipes/pipe.info?_id=69b5dce1c59501a0c64a660c1cfdb856。页面标题也包括网站名称。我不确定这是否是您要找的。