我来这里寻求帮助,因为我正在开始一个项目,我什至不知道要问什么问题。
它归结为我有一堆 html 文件,我需要解析各种信息。这些文件是从在线论坛存档的。我基本上想要做的是能够为程序提供一个 html 文件并让它将以下信息写入数据库:
-每个用户发表的帖子数,每个帖子的时间戳,是否特定字符串出现在消息正文中
以及其他一些类似的信息。
HTML Parser 会是前进的方向吗?我看着它,但老实说,我不太了解如何实现它。我有计算机科学学士学位,但它的编程部分主要集中在算法和解决基本逻辑问题上。我们从来没有学到任何关于将包含多个文件的大型项目放在一起的知识,所以我对如何实现 .jar 文件和不同库的了解基本上是不存在的。
任何能指出我正确方向的东西都将不胜感激!