0

我有一个网址:

url = "http://timesofindia.feedsportal.com/fy/8at2EuL0ihSIb3s7/story01.htmA"

最后有一些不需要的字符,例如 A,TRE。我想删除它,所以 URL 将是这样的:

url = http://timesofindia.feedsportal.com/fy/8at2EuL0ihSIb3s7/story01.htm

我怎样才能删除它们?

4

1 回答 1

2

如果你的网址总是以 结尾.htm.apsx或者.php你可以用一个简单的正则表达式来解决它:

url = url[/^(.+\.(htm|aspx|php))(:?.*)$/, 1]

在 Rubular进行测试。

首先,我使用这种方法来获取一个子字符串,就像切片一样工作。然后是正则表达式。从左到右:

^                   # Start of line
  (                   # Capture everything wanted enclosed
    .+                  # 1 or more of any character
    \.                  # With a dot after it
    (htm|aspx|php)      # htm or aspx or php
  )                   # Close url asked in question
  (                   # Capture undesirable part
    :?                  # Optional
    .*                  # 0 or more any character
  )                   # Close undesirable part
$                   # End of line
于 2013-01-10T12:15:55.840 回答