我有一个包含大量 URL 和普通文本的文件示例:
'http://oaei.ontologymatching.org/2011/benchmarks/101/onto.rdf#Reference http://oaei.ontologymatching.org/2011/benchmarks/101/onto.rdf#Informal ACADEMIC type http://oaei.ontologymatching.org/2011/benchmarks/101/onto.rdf#school ACADEMIC type'
我想得到:
'Reference Informal ACADEMIC type school ACADEMIC type'
我试过了
substr1 = re.findall(r"#(\w+)", text1)
它完成了部分工作,但我不知道如何提取我想要的这些部分并将它们与文本中的其他单词结合起来。本质上,我必须去掉 URL 和“#”符号。有人可以帮助我吗?