我有一个问题,我有大约 700 个 html 文档,每个文档都包含一个包含在跨度中的字母,所有这些都在给定的同一类中。
有没有办法取出所有的字母并将它们连接在一起?也许使用 BeautifulSoup 或其他方法?
我有一个问题,我有大约 700 个 html 文档,每个文档都包含一个包含在跨度中的字母,所有这些都在给定的同一类中。
有没有办法取出所有的字母并将它们连接在一起?也许使用 BeautifulSoup 或其他方法?
当然有。尝试这样的事情:
import os
from BeautifulSoup import BeautifulSoup
letter_list = []
for file in os.listdir('path/to/dir'):
with open('path/to/file', 'r') as html_file:
html = ' '.join(str(x) for x in list(html_file)) # Combines each row in file into a single string
soup = BeautifulSoup(html)
letter = soup('span',{'class':'someclass'})[0].contents[0]
letter_list.append(letter)
my_string = ''.join(str(x) for x in letter_list)
这将遍历目录,打开每个 html 文件并解析字符串。提取的字母将附加到列表中,并在解析完所有文件后加入。