我正在使用 Python 中的正则表达式从文本中提取部分 URL。我正在寻找的 URL 来自一组有限的模式,所以感觉我应该能够在正则表达式中处理它们。我要提取的是文件名的第一部分(以下所有示例中的“some.file.name”),其中可以包括点、字母和数字。
这些是 URL 可以采用的形式:
http://www.example.com/some.file.name.html
http://www.example.com/some.file.name_foo.html
http://www.example.com/some.file.name(123).html
http://www.example.com/some.file.name_foo(123).html
http://www.example.com/some.file.name
http://www.example.com/some.file.name_foo
http://www.example.com/some.file.name(123)
http://www.example.com/some.file.name_foo(123)
我想我对这个正则表达式非常满意:
http://www\.example\.com/([a-zA-Z0-9\.]+)(_[a-z]+)?(\(\d+\))?(\.html)?
但是当 URL 类似于列表中的第一个时,它会在匹配项中包含“.html”。有什么方法可以阻止这种情况,还是正则表达式的基本限制?
我很高兴删除代码中的扩展名,因为它始终是相同的,并且永远不会作为文件名的一部分有效,但将其作为正则表达式匹配的一部分会更干净。
编辑:
我要强调的是,这些 URL 是在正文中。我无法保证它们之前或之后是否有字符,或者这些字符可能是什么。我认为可以安全地假设它们不会是数字、字母、下划线或圆点。