html - 需要一些帮助来启动一个 html 解析项目

Question

我来这里寻求帮助，因为我正在开始一个项目，我什至不知道要问什么问题。

它归结为我有一堆 html 文件，我需要解析各种信息。这些文件是从在线论坛存档的。我基本上想要做的是能够为程序提供一个 html 文件并让它将以下信息写入数据库：

-每个用户发表的帖子数，每个帖子的时间戳，是否特定字符串出现在消息正文中

以及其他一些类似的信息。

HTML Parser 会是前进的方向吗？我看着它，但老实说，我不太了解如何实现它。我有计算机科学学士学位，但它的编程部分主要集中在算法和解决基本逻辑问题上。我们从来没有学到任何关于将包含多个文件的大型项目放在一起的知识，所以我对如何实现 .jar 文件和不同库的了解基本上是不存在的。

任何能指出我正确方向的东西都将不胜感激！

score 0 · Accepted Answer

HTML 解析可以用多种语言完成。

如果您很少或没有编程经验，我建议您从 Python 开始。与 Java 相比，您将能够相当快地进入它。看看 Codecademy 的 Python track - http://www.codecademy.com/tracks/python

您可以使用许多框架在 Python 中抓取 html，例如 lxml、beautifulsoup 和 Scrapy。您在它们之间做出的选择取决于您的问题的程度，例如，您需要程序运行多快？您可以使用简单的 xpath 表达式抓取 html 文件，还是需要实现自己的抓取功能？

对于一个快速而肮脏的解决方案，我推荐 BeautifulSoup。您甚至不必学习 xpath 即可获得成功。但是，根据我的经验，该框架相当慢，因此这可能不是长期解决方案的好选择。

祝你好运！

1 回答 1