python - 使用 Python 抓取和解析 Google 搜索结果

Question

我问了一个关于实现抓取和保存网页的总体思路的问题。原始问题的一部分是：如何从互联网上抓取并保存大量“关于”页面。

通过一些进一步的研究，我有一些选择可以继续进行抓取和解析（列在底部）。

今天，我遇到了另一个关于如何从 Google 搜索结果中抓取的Ruby 讨论。这为我的问题提供了一个很好的选择，它将节省爬行部分的所有努力。

新问题是：在 Python 中，为给定关键字（在本例中为“About”）抓取Google 搜索结果，最后获取链接以进行进一步解析。继续使用的方法和库的最佳选择是什么？（以易于学习和易于实施为衡量标准）。

ps在这个网站上，实现了完全一样的东西，但是关闭了，要更多的结果要钱。如果没有可用的开源代码，我更愿意自己做，同时学习更多的 Python。

哦，顺便说一句，如果有的话，从搜索结果中解析链接的建议会很好。尽管如此，易于学习和易于实施。刚开始学习Python。:P

最后更新，问题解决。使用 xgoogle 的代码，请阅读以下部分中的注释以使 xgoogle 正常工作。

import time, random
from xgoogle.search import GoogleSearch, SearchError

f = open('a.txt','wb')

for i in range(0,2):
    wt = random.uniform(2, 5)
    gs = GoogleSearch("about")
    gs.results_per_page = 10
    gs.page = i
    results = gs.get_results()
    #Try not to annnoy Google, with a random short wait
    time.sleep(wt)
    print 'This is the %dth iteration and waited %f seconds' % (i, wt)
    for res in results:
        f.write(res.url.encode("utf8"))
        f.write("\n")

print "Done"
f.close()

关于 xgoogle 的注意事项（下面由 Mike Pennington 回答）：它的 Github 的最新版本默认情况下已经无法正常工作，可能是由于 Google 搜索结果的变化。该工具主页上的这两个回复 ( a b ) 提供了一个解决方案，它目前仍在使用此调整。但也许有一天，由于谷歌的更改/阻止，它可能会再次停止工作。

目前已知的资源：

对于抓取，Scrapy似乎是一个流行的选择，一个名为ScraperWiki的网络应用程序非常有趣，还有另一个项目提取它的库以供离线/本地使用。机械化也在不同的讨论中被多次提出。
对于解析 HTML，BeautifulSoup似乎是最受欢迎的选择之一。当然。lxml也是。

score 13 · Accepted Answer

13

您可能会发现xgoogle很有用...您似乎要求的大部分内容都在那里...

于 2011-10-12T21:36:33.933 回答

score 1 · Accepted Answer

有一个用于模拟浏览器的斜纹库。我在需要使用谷歌电子邮件帐户登录时使用它。虽然它是一个很棒的工具，但它已经很老了，而且现在似乎缺乏支持（最新版本于 2007 年发布）。如果您要检索需要 cookie 处理或身份验证的结果，它可能会很有用。可能这twill是为此目的的最佳选择之一。顺便说一句，它基于mechanize.

至于解析，你是对的，BeautifulSoup而且Scrapy很棒。背后的一件很酷的事情BeautifulSoup是它可以处理无效的 HTML（例如，与Genshi不同。）

score 1 · Accepted Answer

看看这个用于网络抓取的很棒的 urllib 包装器https://github.com/mattseh/python-web/blob/master/web.py

score 0 · Accepted Answer

这个适用于这一刻。如果进行任何搜索，抓取工具会继续抓取标题及其链接，直到没有更多的下一页或您的 IP 地址被禁止为止。确保您的 bs4 版本 >= 4.7.0，因为我在脚本中使用了伪 CSS 选择器。

from bs4 import BeautifulSoup
from urllib.parse import urljoin
import requests

base = "https://www.google.de"
link = "https://www.google.de/search?q={}"
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36'
}

def grab_content(link):
    res = requests.get(link,headers=headers)
    soup = BeautifulSoup(res.text,"lxml")
    for container in soup.select("[class='g'] a[href^='http'][data-ved]:has(h3)"):
        post_title = container.select_one("h3").get_text(strip=True)
        post_link = container.get('href')
        yield post_title,post_link

    next_page = soup.select_one("a[href][id='pnnext']")
    if next_page:
        next_page_link = urljoin(base,next_page.get("href"))
        yield from grab_content(next_page_link)

if __name__ == '__main__':
    search_keyword = "python"
    qualified_link = link.format(search_keyword.replace(" ","+"))
    for item in grab_content(qualified_link):
        print(item)

score 0 · Accepted Answer

另一个使用 Python 抓取 Google 搜索结果的选项是ZenSERP 提供的选项。

我喜欢易于使用的 API 优先方法，并且 JSON 结果很容易集成到我们的解决方案中。

下面是一个curl请求示例：

curl "https://app.zenserp.com/api/search" -F "q=Pied Piper" -F "location=United States" -F "search_engine=google.com" -F "language=English" -H "apikey: APIKEY"

和回应：

{
  "q": "Pied Piper",
  "domain": "google.com",
  "location": "United States",
  "language": "English",
  "url": "https://www.google.com/search?q=Pied%20Piper&num=100&hl=en&gl=US&gws_rd=cr&ie=UTF-8&oe=UTF-8&uule=w+CAIQIFISCQs2MuSEtepUEUK33kOSuTsc",
  "total_results": 17100000,
  "auto_correct": "",
  "auto_correct_type": "",
  "results": []
}

以 Python 代码为例：

import requests

headers = {
    'apikey': 'APIKEY',
}

params = (
    ('q', 'Pied Piper'),
    ('location', 'United States'),
    ('search_engine', 'google.com'),
    ('language', 'English'),
)

response = requests.get('https://app.zenserp.com/api/search', headers=headers, params=params)

score 0 · Accepted Answer

要从 Google 搜索结果的多个页面中提取链接，您可以使用SerpApi。这是一个免费试用的付费 API。

完整示例

import os

# Python package: https://pypi.org/project/google-search-results
from serpapi import GoogleSearch

params = {
    "engine": "google",
    "q": "about",
    "api_key": os.getenv("API_KEY"),
}

search = GoogleSearch(params)

pages = search.pagination()

for result in pages:
    print(f"Current page: {result['serpapi_pagination']['current']}\n")

    for organic_result in result["organic_results"]:
        print(
            f"Title: {organic_result['title']}\nLink: {organic_result['link']}\n"
        )

输出

Current page: 12
URL: https://fi.google.com/
URL: https://www.mayoclinic.org/about-mayo-clinic

...

Current page: 18
URL: https://igem.org/About
URL: https://www.ieee.org/
URL: https://www.cancer.org/

...

免责声明：我在 SerpApi 工作。

score 0 · Accepted Answer

这可以使用 google 和 beautifulsoup 模块完成，使用下面给出的命令将其安装在 CMD 中：

点安装谷歌beautifulsoup4

此后，运行下面给出的简化代码

import webbrowser, googlesearch as gs
def direct(txt):
    print(f"sure, searching '{txt}'...")
    results=gs.search(txt,num=1,stop=1,pause=0) 
    #num, stop denotes number of search results you want

    for link in results:
        print(link)
        webbrowser.open_new_tab(link)#to open the results in browser

direct('cheap thrills on Youtube') #this will play the song on YouTube
                                    #(for this, keep num=1,stop=1)

输出：

提示：使用它，您还可以制作一个小型虚拟助手，它将在浏览器中以自然语言为您的给定查询（txt）打开顶部搜索结果。如果在运行此代码时遇到困难，请随时发表评论:)

score -1 · Accepted Answer

from urllib.request import urlopen
from bs4 import BeautifulSoup
import urllib.request
import re

import numpy as np
count=0
query=input("query>>")
query=query.strip().split()
query="+".join(query)

html = "https://www.google.co.in/search?site=&source=hp&q="+query+"&gws_rd=ssl"
req = urllib.request.Request(html, headers={'User-Agent': 'Mozilla/5.0'})

soup = BeautifulSoup(urlopen(req).read(),"html.parser")

#Regex
reg=re.compile(".*&sa=")

links = []
#Parsing web urls
for item in soup.find_all('h3', attrs={'class' : 'r'}):
    line = (reg.match(item.a['href'][7:]).group())
    links.append(line[:-4])

print(links)

这应该很方便....更多信息请访问 - https://github.com/goyal15rajat/Crawl-google-search.git

score -2 · Accepted Answer

requests这是一个使用和BeautifulSoup抓取 Google 结果的 Python 脚本。

import urllib
import requests
from bs4 import BeautifulSoup

# desktop user-agent
USER_AGENT = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.14; rv:65.0) Gecko/20100101 Firefox/65.0"
# mobile user-agent
MOBILE_USER_AGENT = "Mozilla/5.0 (Linux; Android 7.0; SM-G930V Build/NRD90M) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.125 Mobile Safari/537.36"

query = "hackernoon How To Scrape Google With Python"
query = query.replace(' ', '+')
URL = f"https://google.com/search?q={query}"

headers = {"user-agent": USER_AGENT}
resp = requests.get(URL, headers=headers)

if resp.status_code == 200:
    soup = BeautifulSoup(resp.content, "html.parser")
    results = []
    for g in soup.find_all('div', class_='r'):
        anchors = g.find_all('a')
        if anchors:
            link = anchors[0]['href']
            title = g.find('h3').text
            item = {
                "title": title,
                "link": link
            }
            results.append(item)
    print(results)

python - 使用 Python 抓取和解析 Google 搜索结果

9 回答 9

Related

Reference