我知道有无数个线程在问这个问题,但是我找不到可以帮助我解决这个问题的线程。
我基本上是在尝试解析大约 10,000,000 个 URL 的列表,确保它们符合以下标准,然后获取根域 URL。这个列表几乎包含了你能想象到的所有内容,包括(以及预期的格式化 url)之类的东西:
biy.ly/test [VALID] [return - bit.ly]
example.com/apples?test=1&id=4 [VALID] [return - example.com]
host101.wow404.apples.test.com/cert/blah [VALID] [return - test.com]
101.121.44.xxx [**inVALID**] [return false]
localhost/noway [**inVALID**] [return false]
www.awesome.com [VALID] [return - awesome.com]
i am so awesome [**inVALID**] [return false]
http://404.mynewsite.com/visits/page/view/1/ [VALID] [return - mynewsite.com]
www1.151.com/searchresults [VALID] [return - 151.com]
有人对此有什么建议吗?