我正在尝试在多个搜索引擎中检索搜索结果的数量,其中大多数都接受我的搜索字符串,例如:
search_engine_url = "https://www.google.com/search?q=" + query + "&num=" + str(number_result)
search_engine_url = "https://www.bing.com/search?q=" + query + "&num=" + str(number_result)
search_engine_url = "https://au.search.yahoo.com/search?q=" + query + "&num=" + str(number_result)
但是,当我将相同的结构传递给 onesearch 时:
search_engine_url = "https://www.onesearch.com/search?q=" + query
我没有得到正确的结果。
如果我在搜索引擎中手动进行搜索——例如“药物血糖”,那么它生成的搜索字符串如下所示:
https://www.onesearch.com/yhs/search;_ylt=AwrCxGGMcZJfaW0AdxzGnIlQ;_ylu=Y29sbwNiZjEEcG9zAzEEdnRpZAMEc2VjA3Fydw--?fr=yhs-ono-df&hsimp=yhs-df&hspart=ono&intl=us&ei=UTF-8&p=bpmCd4P8ioLi2Utwoqr03SXsAFCPzan7PchA19V1xcls5JfyiIr6dcI4epf%2FJJ5NiMNeZpWUeehFb4o680JW6IxaYKmqNhRrLtBltUGzULyKGCPCs3MPOAf0GuLqGRp%2B50Y4dd%2FRKPKYOuJGM5hzZRuACgcuFzq%2BevGv9ySwQz8%3D&fr2=12642&enct=p&encv=1_24&
如何为其他查询传递正确的搜索字符串?如果不可能,还有哪些其他搜索引擎会在首页显示搜索结果的数量?到目前为止,我只发现 'google'、'bing' 和 'yahoo' 可以做到这一点。其他搜索引擎会强制您使用“下一页”来查看更多结果,而无需指明研究结果的总数。我知道这些数字不是真实的,但我只是用它来决定一个搜索词是属于一个组还是另一个组,所以准确性并不重要——只是相对搜索结果的大小。
目前,我没有为此使用搜索引擎 API。
我正在使用 Python,但我认为该语言无关紧要,因为它与搜索字符串有关。
elif search_engine == 'onesearch':
search_engine_url = "https://www.onesearch.com/search?q=" + query + "&num=" + str(number_result)
try:
response = requests.get(search_engine_url, headers=rand_browser) # requests.get(url, headers=headers).text
except requests.exceptions.RequestException as e: # NewConnectionError, MaxRetryError, ConnectionError
print(e)
search_engine = 'google'
continue
soup = BeautifulSoup(response.text, "html.parser")
divs = soup.find_all('span') # <span>102,000,000 results</span>
```