这更像是一个网络抓取问题。有哪些公认的方法可以自动确定 a<table>
是用于布局还是用于您以前从未见过的 HTML 文档中的数据?
我希望能够将任何 HTML 文件作为字符串传递到某个函数中,该函数会吐出 HTML 页面中的所有数据表,但忽略纯粹用于布局的表。但是像http://news.ycombinator.com/newcomments这样的网站使用 HTML 表格进行布局,这很棘手。
此函数不应该针对任何特定网站的 DOM 结构进行定制,因此它应该适用于任何 HTML 字符串(或具有尽可能高的成功率)。
多年来人们是否有任何算法/检查可以区分布局和数据表?这应该是可能的,这只是写下所有变量和试错的问题——我想很多人已经在某个地方制定了计划。
我不一定需要这个功能(虽然这很棒,但我想它需要很多微调)。只是在寻找一些尝试过的策略。
更新
这是一个好的开始(感谢@JaredFarrish):
- 一种基于机器学习的网络表检测方法
- 关键词:表格检测、布局分析、机器学习、决策树、支持向量机、信息检索