1

我正在尝试使用 windows-1254 字符集从站点解析 html。但所有土耳其语字符显示如下: � � � � �</p>

实际问题在哪里?我确实尝试了这些:

webClient.Encoding = System.Text.Encoding.UTF8
webClient.Encoding = System.Text.Encoding.GetString("UTF-8");

作为函数:

public string ReplaceText(string _text)
        {
            _text = _text.Replace("Ä°", "İ").Replace("ı", "ı").Replace("Ã&frac14;", "ü").Replace("ÅŸ", "ş").Replace("Å", "Ş").Replace("ç", "ç").Replace("ö", "ö").Replace("ÄŸ", "ğ").Replace("Ç", "Ç").Replace("Ö", "Ö").Replace("Ãœ", "Ü");
            return _text;
        }

还有这个标题:

webClient.Headers["User-Agent"] = "Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; WOW64; Trident/6.0)";
webClient.Headers["Accept-Charset"] = "windows-1254,utf-8;q=0.7,*;q=0.7";

(也有 iso-8859-9,utf8)

这就是我使用网络客户端的方式:

WebClient wb = new WebClient();         
            wb.Headers["User-Agent"] = "Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; WOW64; Trident/6.0)";
            wb.Headers["Accept-Charset"] = "windows-1254,utf-8;q=0.7,*;q=0.7";
            wb.DownloadStringAsync(new Uri("http://www.site.com"));
            wb.Encoding = System.Text.Encoding.UTF8;
            wb.DownloadStringCompleted += new DownloadStringCompletedEventHandler(DSC);

处理程序:

HtmlDocument htmlDoc = new HtmlDocument();

            htmlDoc.LoadHtml(e.Result);

            var inputs = htmlDoc.DocumentNode.SelectNodes("//div[@id=\"mrln-eyhaber\"]//a");

            foreach (var input in inputs)
            {

                textarea.Text += this.ReplaceText(input.Attributes["title"].Value.ToString()) + "\n\n";
            }
4

2 回答 2

1

您为什么不创建一个自定义类,而不是使用标准方法,专门针对您的需求,它将处理等。

将帮助您生成类,如下所示:在此处输入图像描述

然后你要做的就是

webClient.Encoding = CustomEncoding();

让我知道事情的后续 (:

于 2013-10-02T14:41:05.677 回答
0

如果您知道它的 windows-1254,为什么将编码设置为 UTF-8?修复相当简单,您只需在WebClient.

wb.Encoding = Encoding.GetEncoding(1254);

或者

wb.Encoding = Encoding.GetEncoding("windows-1254");

此外,您的ReplaceText方法也不再需要。

编辑:当然,Windows Phone 不支持这样的编码,您必须自己实现除 utf-8 或 utf-16 之外的任何编码。幸运的是,有一种简单的方法可以做到这一点,您只需使用此处描述的程序来生成您自己的编码类。

于 2013-09-29T11:08:44.370 回答