我是一名 .NET 程序员。我需要从事网络抓取项目。我想了解 HTMLAgilityPack 与 BeautifulSoup 的区别。
很多人说,BeautifulSoup 比 HTMLAgilityPack 好很多。但为此,我需要学习 Python。
所以,我的问题是,我学习 Python 和 BeautifulSoup 还是继续 C# 和 HTMLAgilityPack 是否合理?
任何其他建议都受到热烈欢迎。
我是一名 .NET 程序员。我需要从事网络抓取项目。我想了解 HTMLAgilityPack 与 BeautifulSoup 的区别。
很多人说,BeautifulSoup 比 HTMLAgilityPack 好很多。但为此,我需要学习 Python。
所以,我的问题是,我学习 Python 和 BeautifulSoup 还是继续 C# 和 HTMLAgilityPack 是否合理?
任何其他建议都受到热烈欢迎。
我创建的库CsQuery是 Html Agility Pack 的一个相对较新的替代品。它具有以下优点:
缺点:
您可以从 nuget: 获取它Install-Package CsQuery
。
在 C# .NET 世界中,我会推荐 HTMLAgilityPack,因为它非常灵活。它使您可以像处理格式良好的 XML 一样操作格式不正确的 HTML,因此您可以使用 XPath 或只遍历节点。
BeautifulSoup 是进行 HTML 抓取的好方法,但从开发人员的角度来看,要亲身体验一项全新的技术并不容易。因此,如果您是 .NET 人员,我强烈推荐 HTMLAgilityPack。
结合HTML Agility Pack、正则表达式和 XDocument(LINQ -> XMLy 的东西),您可以获得巨大的成功
它非常强大 - LINQ 和 lambda(第 3 部分) - HTML Agility Pack是 Vijay Santhanam 的一篇博文,让我着迷。