1
from urllib.request import urlopen
import re

urlpath =urlopen("http://blablabla.com/file")
string = urlpath.read().decode('utf-8')

pattern = re.compile('*.docx"')
onlyfiles = pattern.findall(string)

print(onlyfiles)

目标输出

['http://blablabla.com/file/1.docx','http://blablabla.com/file/2.docx']

但我得到了这个

[]

尝试此操作时收到此错误消息。

re.error: nothing to repeat at position 0
4

1 回答 1

1

这行的明星:

pattern = re.compile('*.docx"')

显然似乎是一个 python 已知的错误:

查看此相关答案:正则表达式错误 - 无需重复

尝试使用wordaz regexp:

pattern = re.compile('\w*.docx"')
# or
pattern = re.compile('[a-zA-Z0-9]*.docx"')
于 2020-03-26T01:05:33.700 回答