我正在尝试获取 Internet Explorer Web 浏览器窗口的文本内容。
我正在执行以下步骤:
- 获得指向 IHTMLDocument2 的指针
- 从 IHTMLDocument2 我将主体作为 IHTMLElement
3. 在主体上我调用 get_innerText
编辑
- 我获得了 body 的所有孩子,并尝试对所有 IHTMLElements 进行递归调用
- 如果我得到任何不可见的元素,或者如果我得到一个标签是脚本的元素,我会忽略该元素及其所有子元素。
我的问题是
- 除了页面上可见的文本外,我还获得了具有 which style="display: none"的内容
- 对于 google.com,我还获得了 javascript 和文本。
我尝试了一种递归方法,但我不知道如何处理这样的场景,
<div>
Hello World 1
<div style="display: none">Hello world 2</div>
</div>
在这种情况下,我将无法获得“Hello World 1”
谁能帮我找出从 IHTMLDocument2* 获取文本的最佳方法。我正在使用 C++ Win32,没有 MFC,ATL。
谢谢,阿希什。