我想从网页中提取所有链接。到目前为止,这是我的代码。
import mechanize
import lxml.html
from time import sleep
links = list()
visited_links = list()
br = mechanize.Browser()
def findLinks(url):
response = br.open(url)
visited_links.append(response.geturl())
for link in br.links():
response = br.follow_link(link)
links.append(response.geturl())
sleep(1)
findLinks("http://temelelektronik.net")
for link in links:
if link in visited_links:
links.remove(link)
else:
findLinks(link)
print link
for link in visited_links:
print link
事实上我不想写一个网络爬虫。我想做的是从网页中提取所有链接并创建站点地图。我还想知道是否可以使用 mechanize 和 python 从服务器获取文件的最后修改时间。
我想问的是,这段代码片段是否适用于 HTML 页面。它不会从 php 页面中提取链接。例如这个页面。如何从 php 页面中提取链接?
任何帮助,将不胜感激。谢谢..