1

我正在尝试抓取此网页上的评论。

http://www.tripadvisor.com/Hotel_Review-g294265-d2309275-Reviews-The_Forest_by_Wangz-Singapore.html

每个评论中唯一的问题是“更多”,它会在 OnClick 事件上加载更多文本。

例如:

<span class="taLnk hvrIE6 tr147826763 moreLink" onclick = " ta.util.cookie.setPIDCookie(2247); ta.call('ta.servlet.Reviews.expandReviews', event,this,'review_147826763', '1', 2247)">
More </span>

如何使用 LXML/BeautifulSoup 删除完整的评论文本?

4

1 回答 1

1

这可能不是您要寻找的答案,但我已经开始研究 PhantomJS,它为您提供了一个无头、可编写脚本的 webkit 浏览器。我敢打赌,这比你要走的任何 ajax 逆向工程兔子洞更容易……

于 2012-12-27T20:42:57.390 回答