我必须在 html 文件中隔离部分字符串。我以为我可以成功,但是数据结构真的很混乱。我是一个非常初学者,所以正则表达式可能是一个坏主意。我可以补充一点,逗号或分号不一致,不能选择作为分隔符。无论如何,在这里我做了什么,让我从一个例子开始。假设这是放在变量中的 html
示例 = d1 d2 一些东西 一些东西 一些东西 d3 d4 d5 一些东西
如果分隔符是一致的,我可以使用以下脚本恢复我感兴趣的“一些东西”:
for url in open("url-repository.csv", "rt").readlines():
variable1 = urllib2.urlopen(url[:-1]).read()
a = re.compile('d1(.*?)\"d2')
b = a.search(vqriable1)
if b:
c = b.group(1)
list_of_d1.append(c)
但是在我要分析的不同页面中,分隔符并不总是相同的,也不总是相同的顺序。
Example2 = d2 一些东西 d3没有d4 一些东西 d5
因此,我想问你两件事。假设我创建了我在 html 页面中找到的所有分隔符的列表,
Delimiters_list = [d1, d2, d3]
1 是否可以确保脚本查找所有可能的配置,例如 d1 + d2、d2 + d6、dn + dn?
2或至少,指示第一项,并使脚本停止选择链到它遇到的列表的第一项?
这对我来说是一个非常困难的问题,我知道我可能不清楚,但我提前感谢那些试图检查它并帮助我的人。