python - lxml python脚本，如何删除重复ID的计数

Question

好的，所以我被困在如何解决这个问题上。这只是一个游戏的在线人的私人柜台。

经过一番研究，我设法深入了解我在搜索中添加了一些代码，以获取所有带有 on.png 的图像的计数......它确实有效！

from lxml import etree
import requests

def get_img_cnt(url):
   response = requests.get(url)
   parser = etree.HTMLParser()
   root = etree.fromstring(response.content, parser=parser)

   return int(root.xpath('count(//img[@src="pics/on.png"])'))

现在我的沮丧是“on.png”重复了2次，以防公会长在线。任何人都可以想办法绕过它吗？这是 HTML 的一部分

<tr><td class='tabellatitolo a_dx' style=' padding:10px;' >Master
<td class='tabelladati' style=' padding:10px;' ><img align=absmiddle src='pics/on.png'> 
<a   href='?f=pg&id=55110'>Modernist</a>

<tr><td class='tabellatitolo a_dx' style=' padding:10px;' >Membri<p>(5)
<td class='tabelladati' style=' padding:10px;' >**<img align=absmiddle      src='pics/on.png'> 
<a href='?f=pg&id=55110'>**Modernist**</a>** - <br><img align=absmiddle src='pics/off.png'> 
<a href='?f=pg&id=232720'>Human Slayer</a> - <i>Ti stimo!</i><br>
<img align=absmiddle src='pics/off.png'> <a href='?f=pg&id=68194'>Juggernaut</a><br>
<img align=absmiddle src='pics/off.png'> <a href='?f=pg&id=67121'>XeDiOr ThE KoOl</a><br>
<img align=absmiddle src='pics/on.png'> <a href='?f=pg&id=142638'>Lisbet Irmgard</a><br>

我可能正在考虑使用上下文位置或利用“Membri”（成员）？

感谢任何提示将被appriciated :)

score 0 · Accepted Answer

我将给出一个更残酷但可能更简单的答案：

import re
import requests

def get_img_cnt(url):
    response = requests.get(url)

    # just take the bit after the 'Membri' section
    member_content = response.content.split('>Membri<')[1]

    # count the number of times you see the image
    return len(re.findall('pics/on.png', member_content))

它的工作情况将取决于 html 的其余部分（您尚未提供）。在开始进行一般的 html 解析之前，我会进行字符串搜索（像这样）。如果可行，这是一个更简单、更快捷的解决方案。

python - lxml python脚本，如何删除重复ID的计数

1 回答 1

Related

Reference