4

我正在尝试创造一种方法,让我妈妈在她在 Stater Bros 购买的 Diet Rite 饮料开始销售时收到通知。我的想法是,我可以创建一个 Yahoo Pipe 来接收每周的广告提要和字符串 Diet Rite 的过滤器。雅虎管道本身就是一个 RSS 提要,因此,我会将管道传送到谷歌阅读器,这样我妈妈就会知道 Stater Bros 是否有促销活动。

看到 Stater Bros 如何拥有他们每周广告的可搜索 PDF ,我认为让 Yahoo Pipes 搜索它是一件简单的事情。但是,Yahoo Pipes 不支持 PDF。

然后,我决定通过在线 PDF 到 HTML 转换器来传输 PDF,并将其提供给Fetch PageYahoo Pipes 中的模块。事实上,转换器非常成功,因为生成的 HTML 保留了文本,我可以搜索它并找到我需要的内容。然而,事实证明它以帧的形式吐出数据——因此我不能使用它。我找不到任何其他在线 PDF 到 HTML 转换器。

即使我能够将 PDF 的 HTML 导入 Yahoo Pipes,我也不确定这会带来什么好处,因为 Yahoo Pipes 不提供搜索/过滤 HTML 的方法。它主要适用于提要。

所以我被困住了。关于如何实现我想要做的任何想法?

4

1 回答 1

2

如果您还没有完全使用它,那么您可能需要查看 Google 的缓存系统 ..

http://webcache.googleusercontent.com/search?q=cache:http://www.staterbros.com/Images/PDFs/weekly.aspx

它在 SEO 圈子之外并不广为人知,但 Googlebot 实际上确实执行了粗略的 PDF 到 HTML 和文本的转换。如果您迫不及待地等待 Google 转换 PDF 文件,还有几个免费的 PHP 脚本可以执行相同的功能。

因为管道没有等效的“Preg_match”,所以你必须通过删除不是你想要的东西来向后工作。

替换模块的正则表达式看起来像这样...... ^(.+?)Diet Rite(.+?)$ 替换从字符串开头到“Diet Rite”的所有内容,然后替换“Diet Rite”之后的所有内容' 到字符串的末尾没有任何内容..

因此,如果页面上存在“Diet Rite”,它将显示在管道中并且可以添加到 RSS 提要中,否则管道将返回空白。

于 2012-05-08T13:23:18.597 回答