0

首先,我使用的 IDE 是带有 .net 框架的可视化 C#。

好的,所以我有大约 20,000 个 html 文档,其中包含我需要提取并按日期顺序排序的信息。

文件上的日期存储在此 html 标记中

<td valign="top" class="createdate">
        Tuesday, 03 April 2012 20:39    
</td>

注意:每个 html 文件中的所有日期都采用该格式

我想提取日期然后想自动阅读每个 html 文档并测量短语或单词的出现。

我不是要求某人为我创建整个程序,但如果您能提供尽可能多的详细信息,说明我如何对这 20000 个 html 文件进行排序并提取单词或短语的出现日期和次数,然后将该信息导出到word格式或excel我将非常感激。

哦,我正在使用这些数据来研究我的论文,我知道如何对井字符串和所有字符串方法进行字符串操作,例如查找单词的出现等。

我遇到的问题是如何获取 html 数据或者只是内容,然后将它们排序为可用的格式。谢谢

4

1 回答 1

1

您确定所有的 HTML 文档都具有这种精确的格式吗?在这种情况下,可以通过简单的字符串操作或通过 RegEx 提取包含日期的字符串(侧面,注意,一般来说,正则表达式不适合解析 HTML,但对于这种用例,保持简单听起来像是到这里)。如果您需要进行更重的解析,请考虑HtmlAgilityPack

然后用于DateTime.TryParse获取从字符串转换为DateTime对象的日期。

于 2012-09-15T12:59:50.747 回答