我正在使用 NLTK 对网络请求中的数百条推文进行 POS 标记。如您所知,Django 为每个请求实例化一个请求处理程序。
我注意到这一点:对于一个请求(约 200 条推文),第一条推文需要约 18 秒来标记,而所有后续推文需要约 120 毫秒来标记。我能做些什么来加快这个过程?
我可以做一个“预热请求”,以便为每个请求加载模块数据吗?
class MyRequestHandler(BaseHandler):
def read(self, request): #this runs for a GET request
#...in a loop:
tokens = nltk.word_tokenize( tweet)
tagged = nltk.pos_tag( tokens)