0

好的,所以我被困在如何解决这个问题上。这只是一个游戏的在线人的私人柜台。

经过一番研究,我设法深入了解我在搜索中添加了一些代码,以获取所有带有 on.png 的图像的计数......它确实有效!

from lxml import etree
import requests

def get_img_cnt(url):
   response = requests.get(url)
   parser = etree.HTMLParser()
   root = etree.fromstring(response.content, parser=parser)

   return int(root.xpath('count(//img[@src="pics/on.png"])'))

现在我的沮丧是“on.png”重复了2次,以防公会长在线。任何人都可以想办法绕过它吗?这是 HTML 的一部分

<tr><td class='tabellatitolo a_dx' style=' padding:10px;' >Master
<td class='tabelladati' style=' padding:10px;' ><img align=absmiddle src='pics/on.png'> 
<a   href='?f=pg&id=55110'>Modernist</a>

<tr><td class='tabellatitolo a_dx' style=' padding:10px;' >Membri<p>(5)
<td class='tabelladati' style=' padding:10px;' >**<img align=absmiddle      src='pics/on.png'> 
<a href='?f=pg&id=55110'>**Modernist**</a>** - <br><img align=absmiddle src='pics/off.png'> 
<a href='?f=pg&id=232720'>Human Slayer</a> - <i>Ti stimo!</i><br>
<img align=absmiddle src='pics/off.png'> <a href='?f=pg&id=68194'>Juggernaut</a><br>
<img align=absmiddle src='pics/off.png'> <a href='?f=pg&id=67121'>XeDiOr ThE KoOl</a><br>
<img align=absmiddle src='pics/on.png'> <a href='?f=pg&id=142638'>Lisbet Irmgard</a><br>

我可能正在考虑使用上下文位置或利用“Membri”(成员)?

感谢任何提示将被appriciated :)

4

1 回答 1

0

我将给出一个更残酷但可能更简单的答案:

import re
import requests

def get_img_cnt(url):
    response = requests.get(url)

    # just take the bit after the 'Membri' section
    member_content = response.content.split('>Membri<')[1]

    # count the number of times you see the image
    return len(re.findall('pics/on.png', member_content))

它的工作情况将取决于 html 的其余部分(您尚未提供)。在开始进行一般的 html 解析之前,我会进行字符串搜索(像这样)。如果可行,这是一个更简单、更快捷的解决方案。

于 2016-03-07T23:54:19.440 回答