我的背景:
在 HTML 清理方面,我是新手。自从我使用 C# 为 html 编写唯一的工作以来,已经过去了大约四年。不久前,我使用 C# 进行的其他编码是用于表单来操作 SQL Server 数据库中的数据。
我为尝试开始使用 HTML Agility Pack (HAP) 所做的工作:
我花了几天时间试图理解从各种在线资源中找到的关于如何开始使用 HTML Agility Pack 的说明。到目前为止,我发现的一些内容如下:
- www.4guysfromrolla.com/articles/011211-1.aspx
- olussier.net/2010/03/30/easy-parse-html-documents-in-csharp/
- stackoverflow.com/questions/846994/how-to-use-html-agility-pack
- shatalov.su/en/articles/web/parser_1.php
- 下面还有更多的提到......
到目前为止我的结果:
我发现这些材料与每个来源似乎都在告诉我一些不同的东西。我所有的尝试都走到了尽头。
为了方便大家高效的理清我的困惑,回复我的具体情况,我将在下面我的项目、我的环境和我的问题三个部分进行描述;
我的项目
我的任务是创建一个从 html 文件中清除数据的过程。我很了解这些文件。这些文件将驻留在机器本地的文件系统中。html 文件将由我们不拥有的进程在其他地方创建,并将放置在我刚才提到的本地文件夹中。(仅供参考 - 虽然这不是我的问题的一部分,但我希望创建一个项目或应用程序,该项目或应用程序将按计划运行以执行清理任务,然后将收集的数据输入到数据库表中。)
我的环境
如上所述,要处理的 html 文件将驻留在本地计算机上。我在这台机器上新安装了 Visual Studio 2010 Professional 来为这个项目编写代码。该机器现在可以通过文件共享访问 HTML Agility Pack。
在 REGEIT 下: HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\NET Framework Setup\NDP 列出了以下指示本机上安装的 .NET 框架的版本;
- CDF
- V2.0.50727
- V3.0
- V3.5
- V4
- V4.0
我的问题
1.) 一些网站告诉我下载 HTML Agility Pack 并使用文件“HtmlAgilityPack.dll”,但是 zip 文件包含九个文件夹,每个文件夹都有该文件的不同副本。我想要哪一个?
这是文件夹的名称;
- 网20
- 网40
- Net40-客户端
- 网45
- sl3-wp
- SL4
- sl4-windowsphone71
- SL5
- winrt45
2.) 在 stackoverflow.com/questions/846994/how-to-use-html-agility-pack 上对论坛问题“我如何使用 HTML 敏捷包”的回答指示提问者“下载并构建 HTML 敏捷包” Pack Solution”,并将提问者定向到站点 htmlagilitypack.codeplex.com,然后该站点具有指向 nuget.org/packages/HtmlAgilityPack 的链接,该链接表示通过运行命令“PM> Install-Package HtmlAgilityPack”来“安装”HTMLAgilityPack。 “包管理器控制台”</p>
这是什么意思呢?其他网站说要在 bin 文件夹中找到 dll。那是在告诉我该怎么做?请更详细地解释让我开始。
3.) 假设我使用 C# 我应该创建什么样的项目?
4.) 请指导我找到您认为适用于我的项目的任何其他资源。