我正在尝试自动化一项监控服务,以检查中国互联网上客户最近的报道。其中一个方面是使用限时搜索在百度上进行搜索。
我可以使用公共 api(serpapi.com 是我尝试过的,它是付费的,但有一定数量的免费可更新呼叫)和使用 python 中的 BeautifulSoup 包来获取搜索结果。
serp api 的文档说用于进行限时搜索的查询参数是“lm”。因此,搜索上周的结果将包含参数“lm=7”。
但是,在 serp api 操场上应用它,手动将其粘贴到地址栏中,以及将其应用到带有 BeautifulSoup 的脚本中,都无法以所需的方式限制搜索。我已经联系了 serp api,正在等待他们的回复,但只能假设他们的信息已过时。
我尝试在百度上手动设置搜索,然后检查 url 以查看时间元素是如何包含的。它们揭示了两个看起来像可能的时间元素的参数:“rsv_t”和“gpc”。
我的问题是有人对如何解码这些参数的内容有任何想法吗?
下表列出了三个示例参数集……它们之间的唯一区别是时间的限制。
非常感谢
https://www.baidu.com/s?ie | F | rsv_bp | rsv_idx | 吨 | wd | 粉蕾 | rsv_pq | rsv_t | rqlang | rsv_enter | rsv_dl | rsv_btype | 输入T | gpc | 标志 | 乙 | oq | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | ['utf-8'] | ['8'] | ['1'] | ['1'] | ['百度'] | ['咖啡'] | ['256'] | ['a43a962200098c9b'] | ['b283pRIctVFiQx+ShFGJLMQc3l6DZKzU/jTMS5jkb5SmedqMAc6pQhASpRs'] | ['cn'] | ['1'] | ['待定'] | ['一世'] | ['2467'] | ['stf=1645875521,1645961920 | stftype=1'] | ['1'] | 楠 |
1 | ['utf-8'] | ['8'] | ['1'] | ['1'] | ['百度'] | ['咖啡'] | ['256'] | ['a43a962200098c9b'] | ['332cgjdmmtQzum7AaKcs6xhAPQoIXyOTOv68DZ3vmJPD+x0Q2/rUbXF6qnA'] | ['cn'] | ['1'] | ['待定'] | ['一世'] | ['2467'] | ['stf=1645357129,1645961928 | stftype=1'] | ['1'] | ['咖啡'] |
2 | ['utf-8'] | ['8'] | ['1'] | ['1'] | ['百度'] | ['咖啡'] | ['256'] | ['9cfa160000307339'] | ['4ea5ZL5b6Al45g2g/z/gwwMhOJ9BSpRjXtntDRSSjG8iTziHNzROULv0qlQ'] | ['cn'] | ['1'] | ['待定'] | 楠 | 楠 | ['stf=1614463408,1645999408 | stftype=1'] | ['1'] | 楠 |