有谁知道是否有一些参数可用于雅虎程序搜索允许限制结果,因此只返回特定类型文件的链接(例如 PDF)?在 GUI 中可以做到这一点,但如何通过 API 实现呢?
我非常感谢 Python 中的示例代码,但任何其他解决方案也可能会有所帮助。
有谁知道是否有一些参数可用于雅虎程序搜索允许限制结果,因此只返回特定类型文件的链接(例如 PDF)?在 GUI 中可以做到这一点,但如何通过 API 实现呢?
我非常感谢 Python 中的示例代码,但任何其他解决方案也可能会有所帮助。
谢谢你。我发现自己这样的东西可以正常工作(文件类型是第一个参数,查询是第二个):
格式 = sys.argv[1]
查询 = " ".join(sys.argv[2:])
srch = create_search("Web", app_id, query=query, format=format)
这就是我为这类事情所做的。它公开了更多参数,因此您可以根据需要对其进行调整。这应该打印出查询“resume”中的前十个 PDF URL [我的不是其中之一;)]。您可以随意下载这些 URL。
从查询返回的 json 字典有点粗糙,但这应该可以帮助您入门。请注意,在实际代码中,您需要检查字典中的某些键是否存在。当没有结果时,这段代码可能会抛出异常。
Tiago 提供的链接有助于了解“type”参数支持哪些值。
from yos.crawl import rest
APPID="XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX"
base_url = "http://boss.yahooapis.com/ysearch/%s/v%d/%s?start=%d&count=%d&type=%s" + "&appid=" + APPID
querystr="resume"
start=0
count=10
type="pdf"
search_url = base_url % ("web", 1, querystr, start, count, type)
json_result = rest.load_json(search_url)
for url in [recs['url'] for recs in json_result['ysearchresponse']['resultset_web']]:
print url