python - 如何使用 Scrapy 和 DeepL API 进行翻译？

Question

如何翻译项目`['devicecount']`并`['released']`使用 DeepL API？

这是我的代码：

import scrapy
from gsm.items import GsmItem

class GsmSpider(scrapy.Spider):
    name = 'gsm'
    allowed_domains = ['gsmarena.com']
    start_urls = ['https://gsmarena.com/makers.php3']

    # LEVEL 1

    def parse(self, response):
        
        item = GsmItem()

        gsms = response.xpath('//div[@class="st-text"]/table//tr[1]//td[1]')
        for gsm in gsms:
            allbranddevicesurl = gsm.xpath('.//a/@href').get()
            brandname = gsm.xpath('.//a/text()').get()
            devicecount = gsm.xpath('.//span/text()').get()
            
            item['brandname'] = brandname
            item['devicecount'] = devicecount

            yield response.follow(allbranddevicesurl, callback=self.parse_allbranddevicesurl,
                                    meta= {'brandname': item,
                                           'devicecount': item})

    # LEVEL 2

    def parse_allbranddevicesurl(self, response):
        
        item = response.meta['brandname']       
        item = response.meta['devicecount'] 

        phones = response.xpath('//*[@id="review-body"]//li')
        for phone in phones:
            detailpageurl = phone.xpath('.//a/@href').get()

            yield response.follow(detailpageurl,
                                    callback=self.parse_detailpage,
                                    meta= {'brandname': item,
                                           'devicecount': item})

        next_page = response.xpath('//a[@class="pages-next"]/@href').get()
        if next_page is not None:
            yield response.follow(next_page, callback=self.parse_allbranddevicesurl,
                                    meta= {'brandname': item,
                                           'devicecount': item})

    # LEVEL 3

    def parse_detailpage(self, response):
     
        item = response.meta['brandname']       
        item = response.meta['devicecount']
         
        details = response.xpath('//div[@class="article-info"]')
        for detail in details:
            phonename = detail.xpath('.//h1/text()').get()
            released = detail.xpath('.//ul/li[1]/span[1]/span/text()').get()             

            item['phonename'] = phonename
            item['released'] = released

            yield item

我会很欣赏如何访问存储在项目中的值并将其传递给翻译函数的示例。

score 1 · Accepted Answer

根据我们在评论中的交流，以下功能似乎可以满足您的需求：

    import deepl, scrapy
    from typing import *
    from gsm.items import GsmItem
    
    AUTH_KEY = <YOUR_AUTH_KEY>

    class GsmSpider(scrapy.Spider):
        name = 'gsm'
        allowed_domains = ['gsmarena.com']
        start_urls = ['https://gsmarena.com/makers.php3']

        def translate_vals(data: Dict[str, str], keys: List[str], lang: str)-> Dict[str, str]
    
        T = deepl.Translator(AUTH_KEY)
        return {k: T.translate_text(text, target_lang=lang) for k,v in data.items() if isinstance(v, str) and v in keys}
    
        # LEVEL 1
    
        def parse(self, response):
            
            item = GsmItem()
    
            gsms = response.xpath('//div[@class="st-text"]/table//tr[1]//td[1]') # one brand --> adjust tr[1] & td[1]
            # gsms = response.xpath('//div[@class="st-text"]/table//td')         # all brands
            for gsm in gsms:
                allbranddevicesurl = gsm.xpath('.//a/@href').get()
                brandname = gsm.xpath('.//a/text()').get()
                devicecount = gsm.xpath('.//span/text()').get()
                
                item['brandname'] = brandname
                item['devicecount'] = devicecount

                translate_vals(item, ['brandname', 'devicecount'], 'fr')

                yield response.follow(allbranddevicesurl, callback=self.parse_allbranddevicesurl,
                                        meta= {'brandname': item,
                                               'devicecount': item})
    
        # LEVEL 2
    
        def parse_allbranddevicesurl(self, response):
            
            item = response.meta['brandname']       
            item = response.meta['devicecount'] 
    
            phones = response.xpath('//*[@id="review-body"]//li')
            for phone in phones:
                detailpageurl = phone.xpath('.//a/@href').get()
    
                yield response.follow(detailpageurl,
                                        callback=self.parse_detailpage,
                                        meta= {'brandname': item,
                                               'devicecount': item})
    
            next_page = response.xpath('//a[@class="pages-next"]/@href').get()
            if next_page is not None:
                yield response.follow(next_page, callback=self.parse_allbranddevicesurl,
                                        meta= {'brandname': item,
                                               'devicecount': item})
    
        # LEVEL 3
    
        def parse_detailpage(self, response):
         
            item = response.meta['brandname']       
            item = response.meta['devicecount']
             
            details = response.xpath('//div[@class="article-info"]')
            for detail in details:
                phonename = detail.xpath('.//h1/text()').get()
                released = detail.xpath('.//ul/li[1]/span[1]/span/text()').get()             
    
                item['phonename'] = phonename
                item['released'] = released
    
                yield item

然后你就可以这样称呼它translate_vals(Request.meta, ['devicecount', 'released'], 'fr')（例如）。AUTH_KEY 您可以在此处注册免费的 DeepL 。

python - 如何使用 Scrapy 和 DeepL API 进行翻译？

如何翻译项目['devicecount']并['released']使用 DeepL API？

1 回答 1

Related

Reference

如何翻译项目`['devicecount']`并`['released']`使用 DeepL API？