redirect - 如何从 MarineTraffic 刮掉船只

Question

我尝试使用以下scrapy的蜘蛛从https://www.marinetraffic.com/en/ais/details/ships/imo:9829069/提取数据，然后将响应保存到file.html。

# -*- coding: utf-8 -*-
import scrapy
from fake_useragent import UserAgent

class MarinetrafficSpider(scrapy.Spider):
    name = 'marinetraffic'
    allowed_domains = ['marinetraffic.com']
    ua = UserAgent()
    ua.update()

    def start_requests(self):
        urls = [
                    'https://www.marinetraffic.com/en/ais/details/ships/imo:9829069/'
            ]
        headers= {'User-Agent': self.ua['google chrome'] }
        for url in urls:
            yield scrapy.Request(url, callback=self.parse, headers=headers)

    def parse(self, response):
        with open('file.html', 'wb') as f:
            f.write(response.body)
        self.log('Saved file')

但我不接受预期的反应。返回的响应在file.html中

请检查调试结果。

我需要对上述代码进行哪些修改，以使返回的响应与我从浏览器获取的响应相同？

我会通知你的笔记。

score 0 · Accepted Answer

您看不到任何内容的原因是该网站是通过 JavaScript 呈现的。换句话说，MarineTraffic 服务器会向您发送一个非常基本的 HTML 页面，以及一个 JS 脚本，该脚本将为您加载内容、构建和显示所需的 HTML。

要获得完整的 HTML 以及您正在寻找的数据，您需要模拟一个真实的浏览器。如果你使用 Python，你可以看看Selenium以及 Chromedriver。

但请注意，上次我检查（3 年前）MarineTraffic 具有非常强大的反爬虫保护，在使用 Selenium + Chromedriver 设置访问几个页面后会阻止您。

redirect - 如何从 MarineTraffic 刮掉船只

1 回答 1

Related

Reference