您可以使用 ghost.py 直接与页面上的 JavaScript 交互,而不是尝试对其进行逆向工程。
如果您在 chrome 控制台中运行以下查询,您会看到它返回了您想要的所有内容。
document.getElementsByClassName('inline-text-org');
退货
[<div class="inline-text-org" title="University of Manchester">University of Manchester</div>,
<div class="inline-text-org" title="University of California Irvine">University of California ...</div>
etc...
您可以使用ghost.py在真实的 DOM 中通过 python 运行 JavaScript 。
这真的很酷:
from ghost import Ghost
ghost = Ghost()
page, resources = ghost.open('http://academic.research.microsoft.com/Search?query=lander')
result, resources = ghost.evaluate(
"document.getElementsByClassName('inline-text-org');")