24

假设我想使用标准socket模块从套接字读取一行:

def read_line(s):
    ret = ''

    while True:
        c = s.recv(1)

        if c == '\n' or c == '':
            break
        else:
            ret += c

    return ret

究竟发生了s.recv(1)什么?每次都会发出系统调用吗?无论如何,我想我应该添加一些缓冲:

为了与硬件和网络现实进行最佳匹配,bufsize的值应该是 2 的相对较小的幂,例如 4096。

http://docs.python.org/library/socket.html#socket.socket.recv

但是编写高效且线程安全的缓冲似乎并不容易。如果我使用file.readline()怎么办?

# does this work well, is it efficiently buffered?
s.makefile().readline()
4

3 回答 3

30

如果您关心性能并完全控制套接字(例如,您没有将其传递到库中),那么请尝试在 Python 中实现您自己的缓冲——Python string.find 和 string.split 等可以非常快。

def linesplit(socket):
    buffer = socket.recv(4096)
    buffering = True
    while buffering:
        if "\n" in buffer:
            (line, buffer) = buffer.split("\n", 1)
            yield line + "\n"
        else:
            more = socket.recv(4096)
            if not more:
                buffering = False
            else:
                buffer += more
    if buffer:
        yield buffer

如果您希望有效负载由不太大的行组成,那么它应该运行得非常快,并且避免不必要地跳过太多层的函数调用。我很想知道这与 file.readline() 或使用 socket.recv(1) 的比较。

于 2009-05-05T00:38:27.380 回答
20

通过recv()调用 C 库函数直接处理调用。

它将阻塞等待套接字有数据。实际上它只会让recv()系统调用阻塞。

file.readline()是一种有效的缓冲实现。它不是线程安全的,因为它假定它是唯一读取文件的人。(例如通过缓冲即将到来的输入。)

如果您使用的是文件对象,则每次read()使用正参数调用时,底层代码都将recv()只请求请求的数据量,除非它已经被缓冲。

如果出现以下情况,它将被缓冲:

  • 你调用了 readline(),它读取了一个完整的缓冲区

  • 行尾在缓冲区结束之前

从而将数据留在缓冲区中。否则缓冲区通常不会过满。

问题的目标不明确。如果您需要在读取之前查看数据是否可用,您可以使用 .select()或将套接字设置为非阻塞模式s.setblocking(False)。然后,如果没有等待数据,读取将返回空,而不是阻塞。

您是否正在读取一个文件或具有多个线程的套接字?我会让一个工作人员读取套接字并将接收到的项目送入队列以供其他线程处理。

建议参考Python Socket Module 源码进行系统调用的 C 源码

于 2009-05-04T21:05:08.173 回答
8
def buffered_readlines(pull_next_chunk, buf_size=4096):
  """
  pull_next_chunk is callable that should accept one positional argument max_len,
  i.e. socket.recv or file().read and returns string of up to max_len long or
  empty one when nothing left to read.

  >>> for line in buffered_readlines(socket.recv, 16384):
  ...   print line
    ...
  >>> # the following code won't read whole file into memory
  ... # before splitting it into lines like .readlines method
  ... # of file does. Also it won't block until FIFO-file is closed
  ...
  >>> for line in buffered_readlines(open('huge_file').read):
  ...   # process it on per-line basis
        ...
  >>>
  """
  chunks = []
  while True:
    chunk = pull_next_chunk(buf_size)
    if not chunk:
      if chunks:
        yield ''.join(chunks)
      break
    if not '\n' in chunk:
      chunks.append(chunk)
      continue
    chunk = chunk.split('\n')
    if chunks:
      yield ''.join(chunks + [chunk[0]])
    else:
      yield chunk[0]
    for line in chunk[1:-1]:
      yield line
    if chunk[-1]:
      chunks = [chunk[-1]]
    else:
      chunks = []
于 2012-07-05T16:49:27.513 回答