我只想在此wiki 页面的表格中获取那些指向包含信息的页面的学校 URL。错误的 url 显示为红色,在“标题”属性旁边包含短语“页面不存在”。我正在尝试使用 re.match() 过滤 URL,以便我只返回那些不包含上述字符串的 URL。为什么 re.match() 不起作用?
网址:
districts_page = 'https://en.wikipedia.org/wiki/List_of_school_districts_in_Alabama'
功能:
def url_check(url):
all_urls = []
r = requests.get(url, proxies = proxies)
html_source = r.text
soup = BeautifulSoup(html_source)
for link in soup.find_all('a'):
if type(link.get('title')) == str:
if re.match(link.get('title'), '(page does not exist)') == None:
all_urls.append(link.get('href'))
else: pass
return