Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我一直在尝试找到一个统计公式来计算从各种网站添加或删除的 html 标签的变化率。
因此,例如,使用我正在编写的刮板,我获得了初始标签计数,然后缓存该值。稍后,在下一轮,我将获得的当前标签计数与过去的标签计数进行比较,并根据两者在变化率方面的差异计算百分比。
此处还包括其他因素,例如网站被抓取的次数,以及这些抓取发生的日期等。
这种性质的东西的理想公式是什么?
计数标签是可以的,另外你可以寻找表格树或 div 树及其深度。
例如,
<div> <div> <div> .. </div> </div> </div> depth is 3