我正在处理一些 html 解析,并且我很难定义一种方法来处理所提取的信息。
例如,考虑这样的页面http://www.the-numbers.com/movies/1999/FIGHT.php。我想处理每个内容,例如The Numbers Rating
, Rotten Tomatoes
, Production Budget
,Theatrical Release
和其他内容,以便我存储每个“键”可能假设的值。
提取过程为我解决了,我不确定存储这些内容的正确方法。正如我所说,它们就像“钥匙”一样工作,所以 adictionary
是一个非常直接的答案。我仍然很想在我正在构建的类中为每个“键”添加一个成员。
问题是在访问这些内容期间,考虑到代码编写,哪种方法效果更好,以及这些方法是否是最好的方法。
对于第一种情况,我会有类似的情况:
class Data:
def __init__(self):
self.data = dict()
def adding_data(self):
self.data["key1"] = (val1, val2)
self.data["key2"] = val3
self.data["key3"] = [val4, val5, val6, ...]
对于第二个:
class Data:
def adding_data(self):
self.key1 = (val1, val2)
self.key2 = val3
self.key3 = [val4, val5, val6, ...]
我考虑这个的原因是我正在使用BeautifulSoup
API,而且我非常喜欢他们在生成的“汤”上处理每个标签的方式。
soup = BeautifulSoup(data)
soup.div
soup.h2
soup.b
您认为哪种方式更人性化?有没有更好的方法来做到这一点?