我正在尝试从网站读取数据并将该数据存储到变量中。例子:
http://www.example.com/example-info.php ->
姓名:鲍勃
地址:1234街
电话:000-000-0000
电子邮件: Bobs-email@nothing.com
我想做的是从 Bob 的标签“名称”中获取值,并将其存储到变量中,例如“用户名”。或“电话”并将值存储到名为“电话”的变量中。有人可以指出我正确的方向。也许我需要使用机械化?
我正在尝试从网站读取数据并将该数据存储到变量中。例子:
http://www.example.com/example-info.php ->
姓名:鲍勃
地址:1234街
电话:000-000-0000
电子邮件: Bobs-email@nothing.com
我想做的是从 Bob 的标签“名称”中获取值,并将其存储到变量中,例如“用户名”。或“电话”并将值存储到名为“电话”的变量中。有人可以指出我正确的方向。也许我需要使用机械化?
您是否要筛选网站?如果是这样,使用requests或BeautifulSoup是不错的选择。
import requests
x = requests.get('http://www.google.com')
if x.status_code == 200:
print x.content
x.content
在上述场景中,将保存您向其发送请求的页面中的数据/html。然后,您可以使用 BeautifulSoup 或正则表达式来提取您需要的特定信息。
您可以dict
存储您的键和值,以及翻译的映射字典
mapping = {"Telephone": "Phone", "Name": "Username"}
details = {}
details[mapping.get(web_key, web_key)] = web_value
所以例如
>>> web_dict = {"Name": "Bob", "Address": "1234 Street", "Telephone": "000-000-0000", "Email": "Bobs-email@nothing.com"}
>>>
>>> for web_key, web_value in web_dict.iteritems():
... details[mapping.get(web_key, web_key)] = web_value
...
>>> print details
{'Username': 'Bob', 'Phone': '000-000-0000', 'Email': 'Bobs-email@nothing.com', 'Address': '1234 Street'}
当然这只是一半的答案,你需要一些东西来将 html 解析成字典。