6

我正在尝试从 R 中的 URL 列表中清理和删除目录

我有的:

http://domain.com/123
http://www.sub.domain1.com/222
http://www.domain2.com/1233/abc

我想要的是:

domain.com
sub.domain1.com
domain2.com

我还有很长的路要清理 URL 的开头

url <- c("http://domain.com/123", "http://www.sub.domain1.com/222","http://www.domain2.com/1233/abc"

cleanurl <- gsub("http://","",url)
cleanurl2 <- gsub("www.","",cleanurl)

(如果有更简单的方法来清理 http:// 和 www.,请告诉我。)

现在我遇到了正则表达式的问题,并/在最后删除了所有内容。我试过这个

cleanurl3 <- gsub("/*","",cleanurl2)

但它只是删除它/而不是它之后的所有内容。

在此先感谢您的帮助!

4

3 回答 3

6

我使用 a strsplit/ gsubcombo 的方法(不仅仅是gsubb/c 有时它很快就能弄清楚,strsplit因为它非常直观):

x <- readLines(n=3)
http://domain.com/123
http://www.sub.domain1.com/222
http://www.domain2.com/1233/abc

gsub("www.", "", sapply(strsplit(x, "//|/"), "[", 2))

## > gsub("www.", "", sapply(strsplit(x, "//|/"), "[", 2))
## [1] "domain.com"      "sub.domain1.com" "domain2.com"

编辑
或者如果您只想使用strsplit(根据马修的建议):

sapply(strsplit(x, "(//|/)(www[.])?"), "[", 2)
于 2013-03-24T19:52:35.480 回答
5

为了第一:

cleanurl <- sub("^http://(?:www[.])?(.*)$", "\\1", url)
cleanurl
## [1] "domain.com/123"       "sub.domain1.com/222"  "domain2.com/1233/abc"

只是域:

cleanurl <- sub("^http://(?:www[.])?([^/]*).*$", "\\1", url)
cleanurl
## [1] "domain.com"      "sub.domain1.com" "domain2.com" 
于 2013-03-24T19:51:45.510 回答
2

这应该有效:

cleanurl <- gsub("http://","",url)
cleanurl2 <- gsub("www.","",cleanurl)

sapply(strsplit(cleanurl2,"/"),"[",1)
[1] "domain.com"      "sub.domain1.com"
[3] "domain2.com" 
于 2013-03-24T19:50:22.950 回答