我正在做一些网络数据分类任务,并且正在考虑是否可以在不考虑网页中引用的任何 css 或 javascript 的情况下获得html 元素的坐标,因为它们会出现在网络浏览器上。
我的编程语言是 c++,需要几百万页的结果,所以它必须很快。我知道有一个 Microsoft COM 组件可以在 Web 浏览器控件中呈现页面,然后可以查询不同 html 标记的位置。但这不适用于我的情况,因为它首先呈现整个页面,这会占用大量时间。
所以我发现,有开源布局引擎 WebKit、Gecko 可能可以用于此。但这是一段巨大的代码,我需要有人将我引导到正确的类或正确的模块以查看或任何以前/以前做过的类似工作。另外,如果我想自定义现有代码以用于多线程以使其更快,请告诉我你们认为什么是不错的选择。
谢谢