javascript - 如何检测页面是否大量使用带有 Python、Scrapy 和 Selenium 的 Javascript？

Question

我在 Selenium 的帮助下编写了一个 Scrapy 蜘蛛来处理网页上的 Javascript 内容。然而，我意识到这种蜘蛛比普通的 Scrapy Crawler 慢得多。出于这个原因，我想结合两个蜘蛛：CrawlSpider用于获取所有资源的通用蜘蛛和仅用于广泛使用 Javascript 的页面的 Selenium Spider。我创建了一个管道步骤，试图检测网页是否需要 Javascript 并大量使用它。到目前为止，我对处理步骤的想法失败了：

一些页面使用通用<noscript>标签。
有些页面会打印一条警报消息，例如<div class="yt-alert-message" >。
...

有很多不同的方法可以表明页面需要 Javascript！

您知道我如何“检测”广泛使用 Javascript 的页面的标准化方法吗？

注意：我只想用我的 Selenium Spider 处理页面，因为蜘蛛非常慢，而且一些页面只使用它来进行漂亮的设计。

score 2 · Accepted Answer

您可以从脚本标签中获取所有 JavaScript，将它们全部加起来，并检查长度是否不超过您认为构成“大量”JavaScript 的任何数量。

# get all script tags
scripts = browser.find_elements_by_tag_name("script")

# create a string to add all the JS content to
javaScriptChars = "";   

# create an list to store urls for external scripts
urls = list()

# for each script on the page...
for script in scripts

    # get the src
    url = script.get_attribute("scr")

    # if script is external (has a 'src' attribute)...
    if url.__len__() > 0:

        # add the url to the list (will access it later)
        urls.append(url)

    else:

        # the script is inline - so just get the text inside
        javaScriptChars = javaScriptChars + script.getAttribute("textContent");

# for each external url found above...
for url in urls

    # open the script
    driver.get(url)

    # add the content to our string
    javaScriptChars = javaScriptChars + driver.page_source

# check if the string is longer than some threshold you choose                              
if javaScriptChars.__len__() > 50000:
     # JS contains more than 5000 characters

数字是任意的。我猜不到 50000 个字符的 JS 实际上可能不是“很多”，因为页面可能不会每次都调用每个函数。这可能在一定程度上取决于用户的行为。

但是，如果您可以假设一个设计良好的网站只包含必要的脚本，那么字符数仍然可能是它运行多少 JS 的相关指标。

javascript - 如何检测页面是否大量使用带有 Python、Scrapy 和 Selenium 的 Javascript？

1 回答 1

Related

Reference