0

我在使用 Recaptcha 抓取政府网站是合法的还是非法的,我在后端代码中发现了一些链接,除了下面提到的链接之外,我还提到了这些链接,并且这些链接没有在网站上使用,我正在使用该链接来抓取数据是该链接可以很好地抓取数据,或者如果我曾经使用该链接抓取数据,则网站所有者可能会阻止我的 IP 地址。这是我的代码我正在抓取数据

 var requester = new HttpRequester();
            requester.Headers["User-Agent"] = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.106 Safari/537.36";

            var configuration = Configuration.Default.WithDefaultLoader(requesters: new[] { requester }).WithCookies();
            string url = "http://www.mca.gov.in/mcafoportal/viewSignatoryDetails.do";
            var context = BrowsingContext.New(configuration);
            await context.OpenAsync(url);

            try
            {
                await context.Active.QuerySelector<IHtmlFormElement>("form[name='signatoryForm']").SubmitAsync(new
                {
                    companyID= "U30009KA2001PTC029692",
                    displayCaptcha ="false"
                });
                Console.WriteLine();
            }
            catch(Exception ex)
            {
                Console.WriteLine(ex.InnerException.Message);
            }


            if (context.Active != null)
            {
                var sdTable = context.Active.QuerySelector<IHtmlTableElement>("table[id='signatoryDetails']");
                if (sdTable != null)
                {
                    if (sdTable.Children.Count() > 0)
                    {
                        for (int i = 0; i < sdTable.Children[1].ChildElementCount; i++)
                        {
                            Console.WriteLine(sdTable.Children[1].Children[i].Children[0].TextContent);
                            Console.WriteLine(sdTable.Children[1].Children[i].Children[1].TextContent);
                            Console.WriteLine(sdTable.Children[1].Children[i].Children[2].TextContent);
                            Console.WriteLine(sdTable.Children[1].Children[i].Children[3].TextContent);
                            Console.WriteLine(sdTable.Children[1].Children[i].Children[4].TextContent);
                            Console.WriteLine(sdTable.Children[1].Children[i].Children[5].TextContent);
                            Console.WriteLine(sdTable.Children[1].Children[i].Children[6].TextContent);
                            Console.WriteLine(sdTable.Children[1].Children[i].Children[7].TextContent);
                            Console.WriteLine("------------------------------");
                        }
                    }
                }
                else
                {
                    Console.WriteLine("No result found");
                }
            }
        }
        catch ( Exception ex)
        {
            Console.WriteLine(ex.Message);
        }

我正在使用此 url Index Charges抓取数据,但是当我更改此 url Signatory时,我抓取的数据出现了一些错误或无法作为第一个 url,请帮助我在其中缺少什么。

4

1 回答 1

0

我不是 100% 确定我理解你的问题。不过,希望以下答案对您有所帮助...

Recaptcha 通常需要 JavaScript(据我所知有一个备用变体,但我不确定它是否在您的网站上使用)。因此,即使您的表单通常有效,您也永远不会获得有效的验证码。

有 AngleSharp.Scripting.JavaScript 用于启用 JavaScript,但请记住,这只是实验性的,仅适用于简单的脚本。有问题的脚本可能太多了。

于 2018-12-09T23:22:30.513 回答