我有一个巨大的域电子表格,我需要清理如下:
- 删除所有
http://
(简单替换所有 - “http://” 与 “”) - 删除任何
www.
(简单替换所有 - “www。”与“”) - 删除任何子域(完全删除实际行,而不仅仅是 url 中的子域)
- 删除域扩展后的任何内容(即
website.com/blah/blahbah/
变为justwebsite.com
(简单替换全部 -"/*"
,""
然后全部替换"/"
为""
)
所以我剩下的只是一个干净域的电子表格,比如"website.com"
.
我想我已经对 1、2 和 4 进行了排序(如上所述),但我真的很挣扎 3。
有任何想法吗?我可以使用regexp / vba执行此操作,并且实际上完全删除该行吗?
样本数据:
http://www.scholastic.com/kids/stacks/games/
http://imgworld.teamworkonline.com/
http://topfreegraphics.com/
http://www.workcircle.co.uk/
http:// www.healthycanadians.gc.ca/index-eng.php
http://gsociology.icaap.org/methods/soft.html
帖子 1、2 和 4 会给我留下:
scholastic.com
imgworld.teamworkonline.com
topfreegraphics.com
workcircle.co.uk
healthcanadians.gc.ca
gsociology.icaap.org
这是我需要完全删除的那些讨厌的子域,只需删除该行。我已经意识到我不能只搜索 2 x ".",因为显然很多域扩展名(即.co.uk
)都包含它。
任何帮助表示赞赏。