0

嗨,我需要获取所有数据页面。以防照片和每个主题的名称。页面在这里

我知道我有两种选择。有了这个,我只能得到整个页面的图像。但是,如果有人知道互补来捕捉一切将是最好的方法:

int startIndex = e.Result.IndexOf(@"><img");
string result = e.Result;            
result = e.Result.Substring(startIndex, e.Result.Length - startIndex);
startIndex = result.IndexOf(".php?src=") + 9;
int endIndex = result.IndexOf(".jpg", startIndex);
string link = result.Substring(startIndex, endIndex - startIndex) + ".jpg";
MessageBox.Show(link);
imagem.Source = new BitmapImage(new Uri(link));

另一种方式是这样。我创建了一个类来保存数据并创建一个列表,但是字符串“pattern”一定是完全错误的。因为我不喜欢骑这种类型的绳子。刚刚从另一个主题复制并尝试基于此创建我自己的:

private void ConsultaPopularVideos(string uri)
        {
            WebClient web2 = new WebClient();
            web2.DownloadStringAsync(new Uri(uri));
            web2.DownloadStringCompleted += web2_DownloadStringCompleted;
        }

        void web2_DownloadStringCompleted(object sender, DownloadStringCompletedEventArgs e)
        {
            if (!e.Cancelled && e.Error == null && !String.IsNullOrEmpty(e.Result))
            {
                _popVideos = new List<PopularVideos>();
                // Aqui você pega todos os links da página
                // P.S.: Se a página mudar, você tem que alterar o pattern aqui.
                string pattern = @"\<a\shref\=[\""|\'](?<url>[^\""|\']+)[\""|\']\stitle\=[\""|\'](?<title>[^\""|\']+).php?src=[\""|\'](?<img>[^\""|\']+)[\""|\']\s\width='275'";


                // Busca no HTML todos os links
                MatchCollection ms = Regex.Matches(e.Result, pattern, RegexOptions.Multiline);


                Debug.WriteLine("----- OK {0} links encontrados", ms.Count);

                foreach (Match m in ms)
                {
                    // O pattern acima está dizendo onde fica o Url e onde fica o nome do artista
                    // e esses são resgatados aqui
                    Group url = m.Groups["url"];
                    MessageBox.Show(m.Groups.ToString());
                    Group title = m.Groups["title"];
                    Group img = m.Groups["img"];

                    if (url != null && title != null && img != null)
                    {
                        //Debug.WriteLine("author: {0}\nUrl: {1}", author.Value, url.Value);

                        // Se caso tenha encontrado o link do artista (pois há outros links na página) continua
                        if (url.Value.ToLower().IndexOf("/") > -1)
                        {
                            // Adiciona um objeto Artista à lista
                            PopularVideos video = new PopularVideos(title.Value, url.Value, img.Value);
                            _popVideos.Add(video);                            
                        }
                    }
                }
                listBoxPopular.ItemsSource = _popVideos;
            }
        }

班级:

class PopularVideos
    {
        public PopularVideos() { }
        public PopularVideos(string nome, string url, string img)
        {
            Nome = nome;
            Url = new Uri(url);
            BitmapImage Img = new BitmapImage(new Uri(img));
        }
        public string Nome { get; set; }
        public string Img { get; set; }
        public Uri Url { get; set; }
    }
4

1 回答 1

0

使用正则表达式从网页中抓取数据并不是一个好的解决方案,因为它不可靠、脆弱且难以实施。我会推荐使用 [htmlagilitypack][http://htmlagilitypack.codeplex.com/] 来抓取数据,它是一个成熟的库,支持 windows phone,我在我的 windows phone 应用程序中使用了该工具,非常满意.

于 2013-06-26T00:30:25.960 回答