我正在使用.net regex 兼容,虽然确实使用editpadpro。我正在从 .pdf 重新格式化为一个简单的网页,但是 pdf 文件中的一些文本没有正确显示,例如一些黑色字体的字符串后面应该跟黑色文本的描述。但是很多行不在一起,所以黑字串单独说:
单词
词的描述
我想要实现的是
词的描述
因为是一个 html 文件,所以我正在处理标签
</span> or <br/>
我确实需要只选择那些单独的单词,而不干扰那些已经很好的单词。
所以我要定位的是像这样的行
<p><span class="font7" style="font-weight:bold;">text text text text </span></p>\r\n<p>
其中“文本”重复 4 次是带有目标行的黑色字体文本。但是我想避免这样的行
<p><span class="font7" style="font-weight:bold;">text text text text </span><span class="font7"> text text text <br/> text text text </span></p>\r\n<p>
我一直在尝试使用 jgsoft 或 .net 兼容表达式使用正则表达式,因为我尝试使用前瞻(虽然不是必需的),但这似乎不起作用,我想知道为什么
<p><span class="font7" style="font-weight:bold;">.+?(?:(?!.+?</span>.+?$)){2}</p>\r\n<p>
这是我做的另一次尝试,但效果不佳。
<p><span class="font7" style="font-weight:bold;">(?!.+(</span>).+\1)</p>\r\n<p>
我尝试在字符串的开头使用前瞻来匹配,但最后我做了很多尝试,我更喜欢问像你这样的人,他们可能知道如何解决这个问题。
所以最后我想要的是从这些行中删除这部分以定位。
</p>\r\n<p>
因为那些doble段落不是必需的,而只是在那些特定的行中。通过这样做,看起来像这样
词的描述
如果您可以提供 .net 风格或 perl 风格,请使用文本编辑器执行会很好,尽管如果您有任何其他建议也会很好。
来自墨西哥库埃纳瓦卡的问候,对不起我的英语,感谢您的帮助。