6

我正在使用 Selenium WebDriver 和 Python 绑定来自动化一些单调的 WordPress 任务,到目前为止,它一直非常简单。我正在尝试选择一个复选框,但我可以识别它的唯一方法是通过它后面的文本。这是 HTML 的相关部分:

<li id="product_cat-52">
    <label class="selectit">
       <input value="52" type="checkbox" name="tax_input[product_cat][]" id="in-product_cat-52"> polishpottery
    </label>
</li>

我在脚本中唯一能识别此复选框的信息是字符串“polishpottery”。有没有办法只知道后面的文本来选择该复选框?

4

3 回答 3

8

正如@sherwin-wu 已经说过的那样,您应该找到一种方法来根据 id 或 name 或 class(并且很可能是它们的组合)来选择所需的内容。在您的示例中,似乎有足够的可能性这样做,尽管我不知道页面的其余部分通常是什么样子。

话虽如此,可以按照您的要求使用 XPath 选择器,例如

driver.find_element_by_xpath("//li/label/input[contains(..,'polishpottery')]")
于 2012-07-10T08:31:49.590 回答
0

正则表达式——可能不是最好的解决方案,但它应该可以工作。

import re

def get_id(str, html_page): # str in this case would be 'polishpottery'
    return re.search(r'<input[^<>]*?type="checkbox"[^<>]*?id="([A-Za-z0-9_ -]*?)"[^<>]*?> ?' + str, html_page).group(1)

id = get_id('polishpottery', html)
checkbox = driver.find_element_by_id(id)
checkbox.toggle()

# Or, more minimallistically:
driver.find_element_by_id(get_id('polishpottery', html)).toggle()

输出:

>>> print(html)
<li id="product_cat-52">
    <label class="selectit">
       <input value="52" type="checkbox" name="tax_input[product_cat][]" id="in-product_cat-52"> polishpottery
    </label>
</li>
>>> get_id('polishpottery', html)
'in-product_cat-52'
于 2012-07-10T03:51:47.583 回答
0

我建议尝试找到更多方法来选择复选框。例如,您可以使用 browser.find_element_by_id(id) 根据其 id 选择 li 标签。您还可以使用 browser.find_element_by_name(name) 根据名称进行选择。

或者,如果你真的不能,你可以使用 selenium + BeautifulSoup 选择文本。

soup = BeautifulSoup(browser.page_source)
text = soup.find('input', re.compile=" polishpottery")
checkbox = text.parent 
# it might not exactly be parent, but you can play around with
# navigating the tree.

希望这可以帮助!

于 2012-07-10T04:34:56.040 回答