我想将 stringA
与 regex进行比较R
。
A = u'Hi my friend, my name is Julio'
R = r'Hi\s+my\s+friend,\s+my\s+name\s+is([A-Za-z]+)'
这时候我可以很容易地知道语法是否好,这要归功于re.match
and re.search
。现在我想研究匹配不起作用时A和B之间的差异。
我的第一个案例很简单。我将正则表达式替换为([A-Za-z]+)
以(.+)
了解问题是否仅在正则表达式组匹配中。在这种情况下,我可以很容易地提出这个问题,即字符串语法对于为名称定义的组是好的期望。
现在,在第 1 步和第 2 步失败的情况下,我想制作一个类似的差异,HTML diff
但使用正则表达式来确定正则表达式失败的位置。
我研究difflib
了该find_longest_match
函数,但似乎该函数仅适用于每个字符的字符,而不适用于子字符串。
您是否有任何想法/建议来识别基于正则表达式比较的差异并可能计算测量相似性的比率?