你好,希望这不会变得太琐碎。
我的堆栈的相关部分是 Gunicorn/Celery、neomodel (0.3.6) 和 py2neo (1.5)。Neo4j 版本是 1.9.4,绑定在 0.0.0.0:7474 上(所有这些都在 linux 上,我认为是 Ubuntu 13.04)
所以我的 gunicorn/celery 服务器大部分时间都很好,除了偶尔,我收到以下错误:
ConnectionRefusedError(111, 'Connection refused')
Stacktrace (most recent call last):
File "flask/app.py", line 1817, in wsgi_app
response = self.full_dispatch_request()
File "flask/app.py", line 1477, in full_dispatch_request
rv = self.handle_user_exception(e)
File "flask/app.py", line 1381, in handle_user_exception
reraise(exc_type, exc_value, tb)
File "flask/_compat.py", line 33, in reraise
raise value
File "flask/app.py", line 1475, in full_dispatch_request
rv = self.dispatch_request()
File "flask/app.py", line 1461, in dispatch_request
return self.view_functions[rule.endpoint](**req.view_args)
File "Noomsa/web/core/util.py", line 156, in inner
user = UserMixin().get_logged_in()
File "Noomsa/web/core/util.py", line 117, in get_logged_in
user = models.User.index.get(username=flask.session["user"])
File "neomodel/index.py", line 50, in get
nodes = self.search(query=query, **kwargs)
File "neomodel/index.py", line 41, in search
return [self.node_class.inflate(n) for n in self._execute(str(query))]
File "neomodel/index.py", line 28, in _execute
return self.__index__.query(query)
File "py2neo/neo4j.py", line 2044, in query
self.__uri__, quote(query, "")
File "py2neo/rest.py", line 430, in _send
raise SocketError(err)
因此,如您所见,我调用了User.index.get
(请求响应中的第一个调用),并得到一个套接字错误。有时。大多数时候,它连接良好。该错误发生在所有使用 neo4j 连接的 Flask 视图/Celery 任务中(而不仅仅是做User.index.get
;))。
到目前为止,我所采取的步骤包括修补 neomodel 连接函数以检查GraphDatabaseService
每个线程创建的对象,并每隔 30 秒左右自动重新连接(和验证)到 neo4j 服务器。这可能降低了错误的频率,但它们仍然会发生。
在线查找错误,似乎大多数人试图连接到错误的接口/ip/端口。但是,鉴于我的大部分请求都通过了,我觉得这里的情况并非如此。
有任何想法吗?我不认为这是相关的,但我的数据库似乎有 38k 孤立节点;这本身可能值得另一个问题。
编辑:我应该补充一点,当运行 gunicorn/celery 时,这似乎消失了workers=1
,而不是workers=$CPU_N
. 看不出它为什么重要,因为显然 neo4j 设置为$N_CPU*10
默认处理连接。