我编写了一个 VB .Net 应用程序,它向用户询问 URL,然后应用程序将提取该 URL 的 HTML 内容并过滤掉除<td> </td>
标签之间的任何内容之外的大多数内容。
因此,如果该网址的 HTML 是这样的
<html><body><table><tr><td>My content here</td></tr></table>
</body>
</html>
然后应用程序将简单地打印出:
My content here
然而,问题是一些 URL<td></td>
用字母的 ascii 代码而不是字母本身填充了这些,所以这里有一个例子:
<html><body><table><tr><td>">bandit at</td></tr></table>
</body>
</html>
所以我的程序将显示:
'bandit'
但任何浏览器都会将上述内容显示为
bandit
我尝试使用 RegEx 将这些数字替换为它们各自的字符(使用 'Chr' 函数),但我失败了。这是我尝试过的:
Me.TextBox3.Text = Regex.Replace(htmlDoc, "&#\d\d\d;", chr("$&"))
但这会出现错误。
我的问题是:如何替换所有出现的&#\d\d\d;
with Chr(value of the \d\d\d that was matched earlier)
?