我必须在一个项目中工作,我必须在该项目中建立与网页的连接,以便我可以从该页面收集 xml dtd 架构片段并在其上应用我的搜索算法来搜索用户输入的关键字。我已经在 python 中创建了算法,但不知道如何在 python 中建立连接,因为我是新手。有人可以指导我吗?
请帮忙
我必须在一个项目中工作,我必须在该项目中建立与网页的连接,以便我可以从该页面收集 xml dtd 架构片段并在其上应用我的搜索算法来搜索用户输入的关键字。我已经在 python 中创建了算法,但不知道如何在 python 中建立连接,因为我是新手。有人可以指导我吗?
请帮忙
如果你只是想获取一个网页,你可以这样尝试:
import urllib2
url = 'http://www.example.com/index.html'
req = urllib2.Request(url)
response = urllib2.urlopen(req)
#now you can get the data by response.read()
我不建议为 HTTP 生成套接字等,而 @fvwmer 提到的 urllib2 之类的库,或者我个人最喜欢的twill是一种用于浏览网站、下载内容甚至填写网络表单的简单脚本语言。
import re
import twill
go('http://www.stackoverflow.com')
content = show() #saving content in a variable
if re.search('some regex', content):
'do something'