python - Python字符串模式识别/压缩

Question

我可以做基本的正则表达式，但这略有不同，即我不知道模式会是什么。

例如，我有一个类似字符串的列表：

lst = ['asometxt0moretxt', 'bsometxt1moretxt', 'aasometxt10moretxt', 'zzsometxt999moretxt']

在这种情况下，通用模式是两个通用文本段：'sometxt'和'moretxt'，以长度可变的其他内容开头和分隔。

公共字符串和变量字符串当然可以以任意顺序和任意次数出现。

将字符串列表压缩/压缩成它们的共同部分和个体变体的好方法是什么？

一个示例输出可能是：

c = ['sometxt', 'moretxt']

v = [('a','0'), ('b','1'), ('aa','10'), ('zz','999')]

score 8 · Accepted Answer

此解决方案找到两个最长的公共子字符串并使用它们来分隔输入字符串：

def an_answer_to_stackoverflow_question_1914394(lst):
    """
    >>> lst = ['asometxt0moretxt', 'bsometxt1moretxt', 'aasometxt10moretxt', 'zzsometxt999moretxt']
    >>> an_answer_to_stackoverflow_question_1914394(lst)
    (['sometxt', 'moretxt'], [('a', '0'), ('b', '1'), ('aa', '10'), ('zz', '999')])
    """
    delimiters = find_delimiters(lst)
    return delimiters, list(split_strings(lst, delimiters))

find_delimiters和朋友找到分隔符：

import itertools

def find_delimiters(lst):
    """
    >>> lst = ['asometxt0moretxt', 'bsometxt1moretxt', 'aasometxt10moretxt', 'zzsometxt999moretxt']
    >>> find_delimiters(lst)
    ['sometxt', 'moretxt']
    """
    candidates = list(itertools.islice(find_longest_common_substrings(lst), 3))
    if len(candidates) == 3 and len(candidates[1]) == len(candidates[2]):
        raise ValueError("Unable to find useful delimiters")
    if candidates[1] in candidates[0]:
        raise ValueError("Unable to find useful delimiters")
    return candidates[0:2]

def find_longest_common_substrings(lst):
    """
    >>> lst = ['asometxt0moretxt', 'bsometxt1moretxt', 'aasometxt10moretxt', 'zzsometxt999moretxt']
    >>> list(itertools.islice(find_longest_common_substrings(lst), 3))
    ['sometxt', 'moretxt', 'sometx']
    """
    for i in xrange(min_length(lst), 0, -1):
        for substring in common_substrings(lst, i):
            yield substring


def min_length(lst):
    return min(len(item) for item in lst)

def common_substrings(lst, length):
    """
    >>> list(common_substrings(["hello", "world"], 2))
    []
    >>> list(common_substrings(["aabbcc", "dbbrra"], 2))
    ['bb']
    """
    assert length <= min_length(lst)
    returned = set()
    for i, item in enumerate(lst):
        for substring in all_substrings(item, length):
            in_all_others = True
            for j, other_item in enumerate(lst):
                if j == i:
                    continue
                if substring not in other_item:
                    in_all_others = False
            if in_all_others:
                if substring not in returned:
                    returned.add(substring)
                    yield substring

def all_substrings(item, length):
    """
    >>> list(all_substrings("hello", 2))
    ['he', 'el', 'll', 'lo']
    """
    for i in range(len(item) - length + 1):
        yield item[i:i+length]

split_strings使用分隔符拆分字符串：

import re

def split_strings(lst, delimiters):
    """
    >>> lst = ['asometxt0moretxt', 'bsometxt1moretxt', 'aasometxt10moretxt', 'zzsometxt999moretxt']
    >>> list(split_strings(lst, find_delimiters(lst)))
    [('a', '0'), ('b', '1'), ('aa', '10'), ('zz', '999')]
    """
    for item in lst:
        parts = re.split("|".join(delimiters), item)
        yield tuple(part for part in parts if part != '')

score 3 · Accepted Answer

这是一个可怕的让球滚动。

>>> import re
>>> makere = lambda n: ''.join(['(.*?)(.+)(.*?)(.+)(.*?)'] + ['(.*)(\\2)(.*)(\\4)(.*)'] * (n - 1))
>>> inp = ['asometxt0moretxt', 'bsometxt1moretxt', 'aasometxt10moretxt', 'zzsometxt999moretxt']
>>> re.match(makere(len(inp)), ''.join(inp)).groups()
('a', 'sometxt', '0', 'moretxt', '', 'b', 'sometxt', '1', 'moretxt', 'aa', '', 'sometxt', '10', 'moretxt', 'zz', '', 'sometxt', '999', 'moretxt', '')

我希望它的丑陋会激发更好的解决方案:)

score 2 · Accepted Answer

这似乎是最长公共子序列问题的一个例子。一种方法是查看差异是如何生成的。Hunt-McIlroy 算法似乎是第一个，也是最简单的，特别是因为它显然是非启发式的。

第一个链接包含详细的讨论和（伪）代码示例。当然，假设我不完全了解这里的赛道。

score 1 · Accepted Answer

我想您应该从识别字符串中经常出现的子字符串（模式）开始。由于天真地计算一组字符串中的子字符串在计算上相当昂贵，因此您需要想出一些聪明的方法。

我已经使用广义后缀树（example here）对大量数据进行了子串计数。一旦您知道数据中最常见的子字符串/模式，您就可以从那里获取它。

score 1 · Accepted Answer

这看起来很像用于数据（文本）压缩的LZW算法。那里应该有 python 实现，您可以根据需要进行调整。

我假设您对这些经常重复的子字符串没有先验知识。

score -1 · Accepted Answer

如何替换已知文本，然后拆分？

import re
[re.sub('(sometxt|moretxt)', ',', x).split(',') for x in lst]
# results in
[['a', '0', ''], ['b', '1', ''], ['aa', '10', ''], ['zz', '999', '']]

python - Python字符串模式识别/压缩

6 回答 6

Related