我正在构建一些可以或多或少从任意网站提取关键信息的东西。例如,如果我爬取了一个麦当劳页面,并想以编程方式计算出麦当劳的开店和关店时间,那么有什么智能方法可以做到这一点?
在一般情况下,也许我也想知道麦当劳是否有卖鸡翅,或者麦当劳的地址。
我在想的是,我将为 , 和 提供一个特定的案例time
,wings
并且address
对于这 3 个案例中的每一个案例都有唯一的代码。
但我不确定如何解决这个问题。我已经抓取了网站并将 HTML 和相关信息解析为 JSON。我目前的方法是查找title
标签并检查title
标签是否包含诸如address
or之类的关键字location
。如果title
包含那些key words
,那么我将查看当前页面并识别类似于地址的内容块,例如内容城市或国家或内容有St
或Street
里面。
我想知道是否有更好的方法来查找关键数据,并寻找更好的起点或反弹一些想法等等。或者即使有很好的文章可以阅读这方面的内容也会很棒。
如果不清楚,请告诉我。
谢谢您的帮助。