首先,我使用的 IDE 是带有 .net 框架的可视化 C#。
好的,所以我有大约 20,000 个 html 文档,其中包含我需要提取并按日期顺序排序的信息。
文件上的日期存储在此 html 标记中
<td valign="top" class="createdate">
Tuesday, 03 April 2012 20:39
</td>
注意:每个 html 文件中的所有日期都采用该格式
我想提取日期然后想自动阅读每个 html 文档并测量短语或单词的出现。
我不是要求某人为我创建整个程序,但如果您能提供尽可能多的详细信息,说明我如何对这 20000 个 html 文件进行排序并提取单词或短语的出现日期和次数,然后将该信息导出到word格式或excel我将非常感激。
哦,我正在使用这些数据来研究我的论文,我知道如何对井字符串和所有字符串方法进行字符串操作,例如查找单词的出现等。
我遇到的问题是如何获取 html 数据或者只是内容,然后将它们排序为可用的格式。谢谢