3

我正在尝试做一些网页抓取,它涉及发送一个带有多选框列表的表单,看起来类似于:

<select name="multipleSelectForm" multiple="multiple" size="5">
    <option value="value1">value1</option>
    <option value="value2">value2</option>
</select>

现在,我想使用 pycurl 发送 value1 和 value2,例如:

import urllib
import pycurl

c = pycurl.Curl()

data = {'multipleSelectForm':'value1',
        'multipleSelectForm':'value2'}

c.setopt(c.URL, 'http://www.example.com')

c.setopt(c.POST, 1)
post = urllib.urlencode(data)
c.setopt(c.POSTFIELDS, post)

c.perform()

现在这个明显的问题是它多次发送 multipleSelectForm 。我很确定请求的页面可能正在寻找一个 multipleSelectForm 数组,而不仅仅是单个变量(这只是一个猜测,我实际上并不确定),因此它收到的 POST 数据不正确。

我尝试使用 Google Chrome 的开发工具来查看它的流量,当我查看表单数据时,它看起来像这样:

multipleSelectForm:value1
multipleSelectForm:value2

如果有人愿意提供帮助,我对如何处理这一切有点迷茫

4

1 回答 1

1

由此看来,您发送的数据将只是

{ 'multipleSelectForm':'value2' }

因为它是一本字典。如果您将其设置为元组对,它将执行您想要的操作。

data = (('multipleSelectForm', 'value1'), ('multipleSelectForm', 'value2'))

您可以通过设置一个小型调试 http 服务器自行测试:

from BaseHTTPServer import BaseHTTPRequestHandler, HTTPServer                                                                                                                                                                                                                     

class hand(BaseHTTPRequestHandler):                                          
    def __init__(self, socket, *args):                                       
        print socket.recv(10000)                                             

server = HTTPServer(('', 8080), hand)                                        
server.serve_forever()                                                       

然后用你的脚本点击它。我用它来确认传递元组列表符合我的预期。

于 2013-08-29T15:47:27.130 回答