基本上,我在设计一个网络搜索引擎,所以我设计了一个爬虫来获取网页。
读入时,网页是html格式的,所以所有的标签都在那里。我需要从正文和标题中提取关键字,所以我试图删除所有标签('<' 和 '>' 之间的任何标签)
下面的代码适用于小型 html 页面,但是当我尝试大规模使用它时(即从http://www.google.com开始),我的内存不足。
0 def remove_tags(self, s):
1 while '<' in s:
2 start = s.index('<')
3 end = s.index('>')
4 s = s[:start] + " " + s[end+1:]
5 return s.split()
内存错误发生在第 4 行。如何修复我的代码,以便获取 s 的子字符串不会消耗过多的内存?