我有一个 0 和 1 的元组,例如:

(1, 0, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1)


(1, 0, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1) == (1, 0, 1, 1) * 3

我想要一个函数f,使得 ifs是一个由零和一组成的非空元组,f(s)是最短的子元组r,使得s == r * n对于某个正整数n


f( (1, 0, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1) ) == (1, 0, 1, 1)

f用 Python编写函数的巧妙方法是什么?



def f(s):
  for i in range(1,len(s)):
    if len(s)%i == 0 and s == s[:i] * (len(s)/i):
      return s[:i]

我相信我有一个 O(n) 时间解决方案(实际上是 2n+r,n 是元组的长度,r 是子元组),它不使用后缀树,而是使用字符串匹配算法(如 KMP,你应该找到它-架子)。


If x,y are strings over some alphabet,

then xy = yx if and only if x = z^k and y = z^l for some string z and integers k,l.




我们有给定的字符串 y = uv = vu。由于 uv = vu,我们必须有 u = z^k 和 v= z^l,因此 y = z^{k+l} 从上述定理。另一个方向很容易证明。


def powercheck(lst):
    count = 0
    position = 0
    for pos in KnuthMorrisPratt(double(lst), lst):
        count += 1
        position = pos
        if count == 2:

    return lst[:position]

def double(lst):
    for i in range(1,3):
        for elem in lst:
            yield elem

def main():
    print powercheck([1, 0, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1])

if __name__ == "__main__":

这是我使用的 KMP 代码(由于 David Eppstein)。

# Knuth-Morris-Pratt string matching
# David Eppstein, UC Irvine, 1 Mar 2002

def KnuthMorrisPratt(text, pattern):

    '''Yields all starting positions of copies of the pattern in the text.
Calling conventions are similar to string.find, but its arguments can be
lists or iterators, not just strings, it returns all matches, not just
the first one, and it does not need the whole text in memory at once.
Whenever it yields, it will have read the text exactly up to and including
the match that caused the yield.'''

    # allow indexing into pattern and protect against change during yield
    pattern = list(pattern)

    # build table of shift amounts
    shifts = [1] * (len(pattern) + 1)
    shift = 1
    for pos in range(len(pattern)):
        while shift <= pos and pattern[pos] != pattern[pos-shift]:
            shift += shifts[pos-shift]
        shifts[pos+1] = shift

    # do the actual search
    startPos = 0
    matchLen = 0
    for c in text:
        while matchLen == len(pattern) or \
              matchLen >= 0 and pattern[matchLen] != c:
            startPos += shifts[matchLen]
            matchLen -= shifts[matchLen]
        matchLen += 1
        if matchLen == len(pattern):
            yield startPos




我将它与 shx2 的代码(不是 numpy 的代码)进行了比较,通过生成一个随机的 50 位字符串,然后复制以使总长度为 100 万。这是输出(十进制数是 time.time() 的输出)


(50, [1, 1, 1, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 1])


50 [1, 1, 1, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 1]


上述方法耗时约 4 秒,而 shx2 的方法耗时约 21 秒!

这是计时码。(shx2 的方法称为 powercheck2)。

def rand_bitstring(n):
    rand = random.SystemRandom()
    lst = []
    for j in range(1, n+1):
        r = rand.randint(1,2)
        if r == 2:

    return lst

def main():
    lst = rand_bitstring(50)*200000
    print time.time()
    print powercheck(lst)
    print time.time()
    print time.time()
以下解决方案是 O(N^2),但具有不创建数据的任何副本(或切片)的优点,因为它基于迭代器。

根据您输入的大小,您避免复制数据的事实可能会导致显着的加速,但当然,它不会像复杂度较低的算法(例如 O(N*日志N))。

[这是我的解决方案的第二次修订,第一个在下面给出。这个更容易理解,并且更符合 OP 的元组乘法,仅使用迭代器。]

from itertools import izip, chain, tee

def iter_eq(seq1, seq2):
    """ assumes the sequences have the same len """
    return all( v1 == v2 for v1, v2 in izip(seq1, seq2) )

def dup_seq(seq, n):
    """ returns an iterator which is seq chained to itself n times """
    return chain(*tee(seq, n))

def is_reps(arr, slice_size):
    if len(arr) % slice_size != 0:
        return False
    num_slices = len(arr) / slice_size
    return iter_eq(arr, dup_seq(arr[:slice_size], num_slices))

s = (1, 0, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1)
for i in range(1,len(s)):
    if is_reps(s, i):
        print i, s[:i]


from itertools import islice

def is_reps(arr, num_slices):
    if len(arr) % num_slices != 0:
        return False
    slice_size = len(arr) / num_slices
    for i in xrange(slice_size):
        if len(set( islice(arr, i, None, num_slices) )) > 1:
            return False
    return True

s = (1, 0, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1)
for i in range(1,len(s)):
    if is_reps(s, i):
        print i, s[:i]


def is_iter_unique(seq):
    """ a faster version of testing len(set(seq)) <= 1 """
    seen = set()
    for x in seq:
        if len(seen) > 1:
            return False
    return True


if len(set( islice(arr, i, None, num_slices) )) > 1:


if not is_iter_unique(islice(arr, i, None, num_slices)):
简化 Knoothe 的解决方案。他的算法是对的,但是他的实现太复杂了。这个实现也是 O(n)。

由于您的数组仅由 1 和 0 组成,因此我所做的是使用现有的 str.find 实现(Bayer Moore)来实现 Knoothe 的想法。它在运行时出奇地简单和惊人地快。

def f(s):
    s2 = ''.join(map(str, s))
    return s[:(s2+s2).index(s2, 1)]
这是另一个解决方案(与我之前基于迭代器的解决方案竞争),利用 numpy.

它确实制作了您的数据的(单个)副本,但是利用您的值是 0 和 1 的事实,它非常快,这要归功于 numpy 的魔法。

import numpy as np

def is_reps(arr, slice_size):
    if len(arr) % slice_size != 0:
        return False
    arr = arr.reshape((-1, slice_size))
    return (arr.all(axis=0) | (~arr).all(axis=0)).all()

s = (1, 0, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1) * 1000
a = np.array(s, dtype=bool)
for i in range(1,len(s)):
    if is_reps(a, i):
        print i, s[:i]
这只是 Haskell 中的一个愚蠢的递归比较。Knoothe 的百万长弦 (fa) 大约需要一秒钟。很酷的问题!我会再考虑一下。

a = concat $ replicate 20000 

f s = 
  f' s [] where
    f' [] result = []
    f' (x:xs) result =
      let y = result ++ [x]   
      in if concat (replicate (div (length s) (length y)) y) == s
            then y
            else f' xs y
>>> def f(s):
    def factors(n):
        return set(reduce(list.__add__,
                ([i, n//i] for i in range(2, int(n**0.5) + 1) if n % i == 0)))
    _len = len(s)
    for fact in reversed(list(factors(_len))):
        compare_set = set(izip(*[iter(s)]*fact))
        if len(compare_set) == 1:
            return compare_set

>>> f(t)
set([(1, 0, 1, 1)])
  1. 得到数组的二进制表示,input_binary
  2. 从 循环i = 1 to len(input_array)/2,对于每个循环,将input_binary向右旋转i一位,将其保存为,rotated_bin然后比较XOR和。rotated_bininput_binary
  3. 产生 0的第一个i是所需子字符串的索引。


def get_substring(arr):
    binary = ''.join(map(str, arr)) # join the elements to get the binary form

    for i in xrange(1, len(arr) / 2):
        # do a i bit rotation shift, get bit string sub_bin
        rotated_bin = binary[-i:] + binary[:-i]
        if int(rotated_bin) ^ int(binary) == 0:
            return arr[0:i]

    return None

if __name__ == "__main__":
    test = [1, 0, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1]
    print get_substring(test) # [1,0,1,1]
