1

我正在使用以下脚本创建一些 rss 快照(只是说)。

该脚本在后端运行,我的内存消耗越来越大。

class StartHandler(webapp2.RequestHandler):

    @ndb.toplevel
    def get(self):
        user_keys = User.query().fetch(1000, keys_only=True)
        if not user_keys:
            return
        logging.info("Starting Process of Users")
        successful_count = 0
        start_time = time.time()
        for user_key in user_keys:
            try:
                this_start_time = time.time()
                statssnapshot = StatsSnapShot(parent=user_key,
                                        property=get_rss(user_key.id())
                                        )
                #makes a urlfetch
                statssnapshot.put_async()
                successful_count += 1               
            except:
                pass
        logging.info("".join(("Processed: [",
                            str(successful_count),
                            "] users after [",
                            str(int(time.time()-start_time)),
                            "] secs")))
        return

编辑

这也是 rss 函数可以说:

def get_rss(self, url):
        try:
            result = urlfetch.fetch(url)
            if not result.status_code == 200:
                logging.warning("Invalid URLfetch")
                return
        except urlfetch.Error, e:
            logging.warning("".join("Fetch Failed to get ",url," with",e))
            return
        content = result.content #Around 500 - 200KB
        reobj = re.compile(r'(?<=")[0-9]{21}(?=")')
        user_ids = reobj.findall(content)
        user_ids = set(user_ids)#set to fail if something is not unique
        return user_ids

脚本运行正常,但随着用户的增多,脚本消耗的内存也越来越多。来自 CI 的人不知道如何在 Python 中高效地操作内存和变量。

例如,我知道如果没有再次引用 python 中的变量,垃圾收集器会释放用于该变量的内存,但那似乎是我的情况,我在哪里做错了?

如何优化此脚本以增加内存使用量,而仅消耗每个用户进程所需的内存?

4

1 回答 1

2

NDB 增加了自动缓存,这通常很方便。你有内存缓存和内存缓存,你可以为它们设置策略。

进行看跌时,您可以提供上下文选项,我怀疑以下内容对您有用:

statssnapshot.put_async(use_cache=False)
于 2013-01-22T10:45:39.090 回答