有一个大文件。该文件的每一行都是人工输入的 URL,因此可能会出现不同的问题,例如http
丢失www
等。
是否有可以修复这些网址的 Python 模块?我已经尝试过url_fix
,werkzeug.urls
但这并不是我正在寻找的。
www.example.com >> http://www.example.com/
当然,不可能有一种方法可以修复所有可能的错误,但我正在寻找修复最常见的错误。
你有什么建议吗?
编辑:根据彼得伍德的评论,我们假设 URL 必须包含www
. 就我而言,这些是 eshop URL。