所以,简短的回答,是的。这是完全可能的,但你需要先学习一堆东西:
1) DOM 模型 (HTML) 的基础知识,以便您可以解析页面 2) 服务器和数据库如何工作的一般概念(以及如何在 python 中与它们交互——我使用的是什么,或 java) 3) 有点像第 2 小节:了解如何从服务器检索 HTML 文档然后进行解析
然后,一旦你这样做了,这就是程序必须经历的过程:
1)您需要提供要搜索的页面列表。如果要搜索整个网站,则需要缩小范围。您可以轻松地将您的程序限制为仅搜索某些类型的论坛,这些论坛在大学理事会上都具有相同的格式。您还需要添加程序的一部分,以构建您的程序找到链接的网页列表。例如,如果 Collegeboard 有一个页面,其中包含大量指向具有统计信息的不同页面的链接,那么您将希望您的程序扫描该页面以找到指向具有这些统计信息的页面的链接。
2) 您需要找到包含您想要的信息的 HTML 标记的 ID、位置或一些识别标记。如果您想获得真正的花哨(我的意思是非常花哨),您可以尝试使用一些算法来解析文本并尝试获取信息(也许尝试从论坛上的文本中解析录取统计数据和内容)
3)然后您需要将该信息存储在数据库中,然后索引并创建一个界面以进行搜索(如果您希望整个过程在线,我建议使用 python 框架 Django 使其成为 Web 应用程序)。对于数据库类型,使用 Sqlite 3 (I) 是有意义的
所以是的,这是完全有可能的,但这里有个坏消息:
1)正如有人已经评论过的那样,您需要为您所做的每种网页格式找出第 2 步。(网页格式是指不同的页面,不同的布局。栈溢出首页和这个页面不同,但是所有的问题页面都遵循相同的格式)
2) 您不仅需要为每个新网站重复第 2 步,而且如果网站进行了重新设计,您还必须重新设计。
3) 当你完成程序时,你可能已经很容易地自己收集了信息。
替代和不太酷的选择
无需费尽心思或在网页上搜索特定信息,您只需搜索网页并提取其所有文本,然后尝试在与大学相关的文本中查找关键词。
但是等等,已经有一些东西可以做到这一点!它被称为谷歌:)。这基本上就是谷歌的工作方式,所以......是的。