2

我正在做一些网络数据分类任务,并且正在考虑是否可以在不考虑网页中引用的任何 css 或 javascript 的情况下获得html 元素的坐标,因为它们会出现在网络浏览器上。

的编程语言是 c++,需要几百万页的结果,所以它必须很快。我知道有一个 Microsoft COM 组件可以在 Web 浏览器控件中呈现页面,然后可以查询不同 html 标记的位置。但这不适用于我的情况,因为它首先呈现整个页面,这会占用大量时间。

所以我发现,有开源布局引擎 WebKit、Gecko 可能可以用于此。但这是一段巨大的代码,我需要有人将我引导到正确的类或正确的模块以查看或任何以前/以前做过的类似工作。另外,如果我想自定义现有代码以用于多线程以使其更快,请告诉我你们认为什么是不错的选择。

谢谢

4

1 回答 1

1

通常,您会发现不同的页面渲染引擎确实以自己的方式渲染 html,结果会有所不同。

问题是,如果您坚持使用任何具体的浏览器引擎,您要做的就是以某种方式将该引擎带入您的项目并使用引擎的接口来检索这些坐标。不过,这是一项艰巨的任务,仅仅是因为您必须阅读大量文档并浏览数千个文件。

我认为正确的方法是在某个地方发布此任务,该任务特定于您选择的页面渲染引擎。(壁虎/webkit/...)

如果您更喜欢坚持特定于 MS 的东西,猜想它会更容易,但无法帮助您处理您想要查看的类名或代码块之类的东西。在这种情况下,可能其他人可以指导您。

于 2010-04-24T20:17:23.743 回答