3

我有一个问题,这似乎是一个真正的问题。我正在使用HTMLAgilityPack来读取 HTML 页面并使用 XPath 来选择我需要的几个元素。这工作正常。

使用 XPATH,我还试图选择这个 DIV 的数字(441676)。

<div class="info">
       Money:
       441 676,-<br>        
</div>

我设法选择了数字,并使用这种奇妙的方法对其进行了修剪: Fastest way to remove white spaces in string

但无论我做什么,441 和 676 之间的空白都不会消失。修剪其他地方的空白就可以了。它仅在数字之间不起作用。有人知道我在这里缺少什么吗?

4

2 回答 2

3

在我看来,您正在处理一个不间断的空间。使用您链接到的方法,我有两个建议给您。

首先是更新您的toExclude数组以包含以下字符:

var str = s.ExceptChars(new[] { ' ', '\t', '\n', '\r','\u00A0'});

注意:您可能应该将数组移动到静态全局变量,因为它永远不会改变,而且您不希望每次调用此函数时都重新分配它。

另一种选择是更新您的ExceptChars函数以使用Char.IsWhiteSpace函数,如下所示:

public static string ExceptChars(this string str, IEnumerable<char> toExclude) 
{ 
    StringBuilder sb = new StringBuilder(); 
    for (int i = 0; i < str.Length; i++) 
    { 
        char c = str[i]; 
        if (!Char.IsWhiteSpace(c))
            sb.Append(c); 
    } 
    return sb.ToString(); 
} 
于 2012-06-19T13:07:33.617 回答
1

好吧,我就是这样解决的。以最快的方式使用 exceptChars 方法 删除字符串中的空格, 我将其修改为“AllowChars”方法,该方法只保留给定的字符。像这样:

public static string AllowedChars(string str, IEnumerable<char> toInclude)
{
        StringBuilder sb = new StringBuilder();
        for (int i = 0; i < str.Length; i++)
        {
            char c = str[i];
            if (toInclude.Contains(c))
                sb.Append(c);
        }
        return sb.ToString();
    }

然后使用这样的方法:

string money_fixed =  AllowedChars(money, new HashSet<char>(new[] {'1','2', '3', '4', '5', '6', '7', '8', '9', '0' }));
于 2012-06-19T13:09:20.687 回答