我有一个网址:
url = "http://timesofindia.feedsportal.com/fy/8at2EuL0ihSIb3s7/story01.htmA"
最后有一些不需要的字符,例如 A,TRE。我想删除它,所以 URL 将是这样的:
url = http://timesofindia.feedsportal.com/fy/8at2EuL0ihSIb3s7/story01.htm
我怎样才能删除它们?
我有一个网址:
url = "http://timesofindia.feedsportal.com/fy/8at2EuL0ihSIb3s7/story01.htmA"
最后有一些不需要的字符,例如 A,TRE。我想删除它,所以 URL 将是这样的:
url = http://timesofindia.feedsportal.com/fy/8at2EuL0ihSIb3s7/story01.htm
我怎样才能删除它们?
如果你的网址总是以 结尾.htm
,.apsx
或者.php
你可以用一个简单的正则表达式来解决它:
url = url[/^(.+\.(htm|aspx|php))(:?.*)$/, 1]
在 Rubular进行测试。
首先,我使用这种方法来获取一个子字符串,就像切片一样工作。然后是正则表达式。从左到右:
^ # Start of line
( # Capture everything wanted enclosed
.+ # 1 or more of any character
\. # With a dot after it
(htm|aspx|php) # htm or aspx or php
) # Close url asked in question
( # Capture undesirable part
:? # Optional
.* # 0 or more any character
) # Close undesirable part
$ # End of line