1

我正在尝试通过 python(xbmc/kodi) 抓取 Javascript 日历页面的各个部分。到目前为止,我已经能够抓取静态 html 变量,但不能抓取 JavaScript 生成的部分。

我试图检索的变量是<strong class="item-title">**this**</strong> , <span class="item-daterange">**this**</span> and <div class="item-location">**this**</div>,请注意它们位于 html 源代码的单独部分中,并通过 JavaScript 呈现。所有这些抓取的变量都应该附加到一个字符串中并显示出来。

response = net.http_GET('my URL')
    link = response.content
    match=re.compile('<strong class="gcf-item-title">(.+?)</strong>').findall(link)
    for name in match:
        name = name
        print name

从上面的正则表达式中,我可以只抓取其中一个变量,并且由于我需要一个字符串列表来一起显示所有变量,那该怎么做?

我知道必须为要抓取的 javascript 变量预先呈现页面但是由于我使用的是 xbmc ,因此我不确定如何导入其他 python 库(例如 dryscrape)来完成此操作。下载 Dryscrape 给了我一个 setup.py ,init .py 文件以及其他一些文件,但我怎样才能将它们一起使用?

谢谢。

4

1 回答 1

1

您是否对抓取 JavaScript 的步骤、如何在 XBMC/Kodi 上使用 Python 或如何安装setup.py文件附带的软件包有疑问?

仅基于您上面的 RegEx,如果您的条目总是 <strong class="item-title">**this**</strong>您将不会得到匹配,因为您的re模式适用于带有 class="gcf-item-title 的元素

您是否正在使用或能够使用 BeautifulSoup?如果您不使用它,但可以使用它,那么您应该——就抓取网站而言,它正在改变生活。

于 2016-08-16T20:10:30.777 回答