我想制作一个以编程方式访问搜索引擎的工具。
我最近一直很喜欢使用 YQL,并认为它可能很有用,因为它可以从 HTML 页面中挖掘数据。
但我用谷歌、必应和雅虎搜索尝试过,它们似乎都阻止了 YQL。
我想知道是否有一些鲜为人知的 Web 搜索站点可以使用 YQL。
或者实际上,如果仍然有任何搜索引擎提供更好的 API。
(事实上,我只是在搜索 languages.stackexchange.com,因为 Stack Exchange API 没有提供按我能找到的文本进行搜索的方法。)
我想制作一个以编程方式访问搜索引擎的工具。
我最近一直很喜欢使用 YQL,并认为它可能很有用,因为它可以从 HTML 页面中挖掘数据。
但我用谷歌、必应和雅虎搜索尝试过,它们似乎都阻止了 YQL。
我想知道是否有一些鲜为人知的 Web 搜索站点可以使用 YQL。
或者实际上,如果仍然有任何搜索引擎提供更好的 API。
(事实上,我只是在搜索 languages.stackexchange.com,因为 Stack Exchange API 没有提供按我能找到的文本进行搜索的方法。)
大多数搜索引擎网站将阻止来自屏幕抓取工具和其他代理的访问。YQL 旨在尊重robots.txt文件,因此在许多这样的网站上它不起作用。
相反,我建议在 HTML 屏幕抓取之上移动一步并使用已发布的搜索 API。
例如,在 YQL 中,有一个表提供对 Bing 搜索结果的访问:
select * from microsoft.bing where query="soccer" and source in ("web","image")
你也可以看看雅虎!BOSS API或直接使用必应搜索 API。