python - p 标签带/不带类和字符串

Question

我是 python 新手，我正在尝试理解 BeautifulSoup。

我做了这段代码它可以工作，但不是我想要的方式：

for abc in soup.findAll(['p',{'a':re.compile('href="/download/*')}]):
    value=abc.text
    print value

页面多个“块”作为这个：

<div class="">
  <div class="ABC">
    <p>
      <a href="/download/1234/abcde/fghij">String1</a>
    </p>
    <p class="data">
      String2 <a href="/user/4649/abc">String3</a> String2 
    </p>
  </div>
  <img src="/img/abc.png" alt="String4" title="String5" />
</div>

我想阅读所有这些“块”并转换为字典（？）： [Link'/download/1234/abcde/fghij', Name'String1', User'String3', alt'String4, title'String5']

有了这个我可以搜索名称并获取链接

score 1 · Accepted Answer

尝试这样的事情：

for outer in soup.find_all("div", attrs={"class": ""}):
    a = outer.find("a")
    img = outer.find("img")
    entry = { "Link": a.get("href")
            , "Name": a.text
            , "User": outer.find("p", "data").find("a").text
            , "alt": img.get("alt")
            , "title": img.get("title")
            }
    print entry

这会检索您想要的东西并将它们放入字典中。

python - p 标签带/不带类和字符串

1 回答 1

Related

Reference