16

由于我开始掌握 Python 的窍门,因此我开始在 projecteuler.net 上测试我新获得的 Python 技能以解决一些问题。

无论如何,在某些时候,我最终制作了一个函数来获取所有素数的列表,直到数字“n”。

这是函数的外观:

def primes(n):
    """Returns list of all the primes up until the number n."""

    # Gather all potential primes in a list.
    primes = range(2, n + 1)
    # The first potential prime in the list should be two.
    assert primes[0] == 2
    # The last potential prime in the list should be n.
    assert primes[-1] == n

    # 'p' will be the index of the current confirmed prime.
    p = 0
    # As long as 'p' is within the bounds of the list:
    while p < len(primes):
        # Set the candidate index 'c' to start right after 'p'.
        c = p + 1
        # As long as 'c' is within the bounds of the list:
        while c < len(primes):
            # Check if the candidate is divisible by the prime.
            if(primes[c] % primes[p] == 0):
                # If it is, it isn't a prime, and should be removed.
                primes.pop(c)
            # Move on to the next candidate and redo the process.
            c = c + 1
        # The next integer in the list should now be a prime, 
        # since it is not divisible by any of the primes before it. 
        # Thus we can move on to the next prime and redo the process.
        p = p + 1       
    # The list should now only contain primes, and can thus be returned.
    return primes

它似乎工作正常,尽管有一件事情让我感到困扰。在评论代码的时候,这一段突然显得不对劲:

# Check if the candidate is divisible by the prime.
if(primes[c] % primes[p] == 0):
    # If it is, it isn't a prime, and should be removed from the list.
    primes.pop(c)
# Move on to the next candidate and redo the process.
c += 1

如果候选不能被素数整除,我们检查位于'c + 1'的下一个候选。没问题。

但是,如果候选者可以被素数整除,我们首先将其弹出,然后检查位于“c + 1”处的下一个候选者。让我感到震惊的是,在弹出之后,下一个候选人不是位于'c + 1',而是位于'c',因为在弹出'c'之后,下一个候选人“落入”该索引。

然后我认为该块应该如下所示:

# If the candidate is divisible by the prime:
if(primes[c] % primes[p] == 0):
    # If it is, it isn't a prime, and should be removed from the list.
    primes.pop(c)
# If not:
else:
    # Move on to the next candidate.
    c += 1

上面的这个块对我来说似乎更正确,但让我想知道为什么原来的部分显然工作得很好。

所以,这是我的问题:

在弹出一个结果不是素数的候选人之后,我们可以假设,就像在我的原始代码中一样,下一个候选人不能被同一个素数整除吗?

如果是这样,那是为什么?

建议的“安全”代码是否会对在“不安全”代码中跳过的候选者进行不必要的检查?

PS:

我尝试将上述假设作为断言写入“不安全”函数,并使用 n = 100000 对其进行测试。没有发生问题。这是修改后的块:

# If the candidate is divisible by the prime:
if(primes[c] % primes[p] == 0):
    # If it is, it isn't a prime, and should be removed.
    primes.pop(c)
    # If c is still within the bounds of the list:
    if c < len(primes):
        # We assume that the new candidate at 'c' is not divisible by the prime.
        assert primes[c] % primes[p] != 0
# Move on to the next candidate and redo the process.
c = c + 1
4

6 回答 6

11

对于更大的数字,它会失败。第一个素数是71,因为候选人可能会失败。71 的最小失败候选者是10986448536829734695346889,它掩盖了数字 10986448536829734695346889 + 142。

def primes(n, skip_range=None):
    """Modified "primes" with the original assertion from P.S. of the question.
    with skipping of an unimportant huge range.
    >>> primes(71)
    [2, 3, 5, 7, 11, 13, 17, 19, 23, 29, 31, 37, 41, 43, 47, 53, 59, 61, 67, 71]
    >>> # The smallest failing number for the first failing prime 71:
    >>> big_n = 10986448536829734695346889
    >>> primes(big_n + 2 * 71, (72, big_n))
    Traceback (most recent call last):
    AssertionError
    """
    if not skip_range:
        primes = list(range(2, n + 1))
    else:
        primes = list(range(2, skip_range[0]))
        primes.extend(range(skip_range[1], n + 1))
    p = 0
    while p < len(primes):
        c = p + 1
        while c < len(primes):
            if(primes[c] % primes[p] == 0):
                primes.pop(c)
                if c < len(primes):
                    assert primes[c] % primes[p] != 0
            c = c + 1
        p = p + 1
    return primes

# Verify that it can fail.
aprime = 71   # the first problematic prime 
FIRST_BAD_NUMBERS = (
        10986448536829734695346889, 11078434793489708690791399,
        12367063025234804812185529, 20329913969650068499781719,
        30697401499184410328653969, 35961932865481861481238649,
        40008133490686471804514089, 41414505712084173826517629,
        49440212368558553144898949, 52201441345368693378576229)

for bad_number in FIRST_BAD_NUMBERS:
    try:
        primes(bad_number + 2 * aprime, (aprime + 1, bad_number))
        raise Exception('The number {} should fail'.format(bad_number))
    except AssertionError:
        print('{} OK. It fails as is expected'.format(bad_number))

我通过搜索 n 模小素数的可能余数,通过一个复杂的算法解决了这些数字,就像一个谜题。最后一个简单的步骤是得到完整的 n(通过三行 Python 代码中的中国剩余定理)。我知道所有 120 个小于原始(71) 的基本解决方案 =2 * 3 * 5 * 7 * 11 * 13 * 17 * 19 * 23 * 29 * 31 * 37 * 41 * 43 * 47 * 53 * 59 * 61 * 67 * 71周期性地重复这个数字的所有倍数。我为每十年测试的素数重写了多次算法,因为每十年的解决方案都比前一个慢得多。也许我会在可接受的时间内为素数 73 或 79 找到一个较小的解决方案。


编辑:

我还想找到不安全的原始功能的完全静默失败。也许存在一些由不同素数组成的候选。这种解决方式只会将最终结果推迟到以后。每一步都将花费越来越多的时间和资源。因此,只有由一两个素数组成的数字才有吸引力。

我希望隐藏的候选c只有两个解决方案是好的:c = p ** n或者pc = p1 * p ** np1是素数并且n大于 1 的幂。如果不能被任何小于p的素数整除并且如果c- 2nc可以被任何小于p的素数整除。变体 p1*p**n 还要求相同的c在p1 ( p1 < p )之前失败,因为我们已经知道无数这样的候选者。c = p1 ** n1 * p ** nc - 2 * p

编辑:我发现了一个较小的失败示例:素数 79 的编号为 121093190175715194562061。(大约比 71 少 90 倍)我不能继续使用相同的算法来找到更小的示例,因为所有 702612 基本解决方案都需要超过 30我的笔记本电脑上的 Prime 79 小时。

我还为小于 400000000 (4E10) 的所有候选者和所有相关素数验证了它,没有候选者会在问题中的断言失败。直到您拥有 TB 的内存和数千年的时间,算法中的断言才会通过,因为您的时间复杂度是 O((n / log(n)) ^2) 或非常相似。

于 2012-12-10T23:53:40.987 回答
4

你的观察似乎是准确的,这是一个很好的收获。

我怀疑它起作用的原因,至少在某些情况下,是因为合数实际上被分解为多个素数。因此,内部循环可能会错过第一个因素的值,但它会在后面的因素中获取它。

对于一个小的“n”,您可以打印出列表的值以查看是否正在发生这种情况。

顺便说一下,这种寻找素数的方法是基于 Eratothenes 筛法。在进行筛分时,如果“c”是“p”的倍数,那么下一个值永远不会是同一个素数的倍数。

问题是:在任何情况下,p*x 和 p*(x+1) 之间的所有值都可以被一些小于 p 和 p*x+1) 的素数整除。(这是算法会错过一个值并且以后不会被捕获的地方。)但是,这些值之一是偶数,因此它将在“第 2 轮”中被消除。所以,真正的问题是是否存在 p*x 和 p*(x+2) 之间的所有值都可以被小于 p 的数字整除的情况。

顺便说一句,我想不出任何小于 100 的数字满足这个条件。对于 p = 5,在两个连续的 5 倍数之间总有一个值不能被 2 或 3 整除。

似乎有很多关于素数间隙和序列的文章,但关于可被小于 p 的数字整除的连续整数序列的文章却不多。经过一些(好吧,很多)试验和错误后,我确定 39,474 (17*2,322) 和 39,491 (17*2,233) 之间的每个数字都可以被小于 17 的整数整除:

39,475  5
39,476  2
39,477  3
39,478  2
39,479  11
39,480  2
39,481  13
39,482  2
39,483  3
39,484  2
39,485  5
39,486  2
39,487  7
39,488  2
39,489  3
39,490  2

我不确定这是否是第一个这样的值。然而,我们必须找到两倍于这个长度的序列。我认为这不太可能,但不确定是否有证据。

我的结论是原始代码可能有效,但您的修复是正确的做法。如果没有证明不存在这样的序列,它看起来就像一个错误,尽管它可能非常、非常、非常罕见。

于 2012-12-06T17:07:16.040 回答
1
  • 给定两个数 n, m 在可能的素数的连续序列中,使得 n 和 m 不能被最后一个除数 p 整除,则 m - n < p
  • 给定 q(下一个更高的除数)> p,那么如果 n 可被 q 整除,则下一个可被 q 整除的数是 n + q > n + p > m,因此在当前迭代中应跳过 m 以进行可分性测试

    Here n = primes[c] 
    
    m = primes[c + 1], i.e. primes[c] after primes.pop(c)
    
    p = primes[p]
    q = primes[p+1] 
    
于 2012-12-06T17:51:05.183 回答
0

这是一个想法:

三联画解释了1,c 之后的下一个数字不能是 c + p,但我们仍然需要证明它也永远不能是 c + 2p。

如果我们使用 primes = [2],我们只能有一个连续的“非素数”,一个可被 2 整除的数字。

如果我们使用 primes = [2,3] 我们可以构造 3 个连续的“非素数”,一个数除以 2,一个数除以 3,一个数除以 2,它们不能得到下一个数。或者

2,3,4 => 3 个连续的“非素数”

尽管 2 和 3 不是“非素数”,但我更容易根据这些数字来思考。

如果我们使用 [2,3,5],我们得到

2,3,4,5,6 => 5 个连续的“非素数”

如果我们使用 [2,3,5,7],我们得到

2,3,4,5,6,7,8,9,10 => 9 个连续的“非素数”

模式出现。我们能得到的最连续的非素数是下一个素数 - 2。

因此,如果 next_prime < p * 2 + 1,我们必须至少有一个介于 c 和 c + 2p 之间的数,因为在给定素数的情况下,连续非素数的数量还不够长。

我不知道非常非常大的数字,但我认为这next_prime < p * 2 + 1可能包含非常大的数字。

我希望这是有道理的,并增加了一些亮点。


1 Triptych的回答已被删除。

于 2012-12-06T19:06:35.007 回答
0

这并没有提供一个远程决定性的答案,但这是我尝试过的:

我在这里重申了所需的假设(lpf 代表 Least Prime Factor):

For any composite number, x, where:
    lpf(x) = n
There exists a value, m, where 0 < m < 2n and:
    lpf(x+m) > n

可以很容易地证明,在没有合数 (x+m) 的情况下存在 x 的值以满足不等式。任何平方素数都表明:

lpf(x) = x^.5, so x = n^2
n^2 + 2n < (n + 1)^2 = n^2 + 2n + 1

因此,在任何平方素数的情况下,为了使这一点成立,必须有一个素数 p,存在于 x < p < x + 2n 的范围内。

我认为可以得出结论,鉴于平方的渐近分布 (x^.5) 与素数定理相比(素数的渐近分布近似 x/(ln x)),但实际上,我对素数的理解定理充其量是有限的。

而且我没有任何策略可以将该结论扩展到非平方复合数,因此这可能不是一个有用的途径。

我已经使用上述问题的重述组合了一个程序测试值。

直接测试此语句应该删除仅按所述运行算法的任何幸运结果。通过获得幸运的结果,我指的是被跳过的值可能不安全,但不会出现任何不正确的结果,因为跳过的值不能被当前正在迭代的数字整除,或者被被后续迭代拾取。本质上,如果算法得到了正确的结果,但要么没有找到每个消除值的 LEAST 素因子,要么没有严格检查每个素数结果,我对此并不满意。如果存在这种情况,我认为可以合理地假设也存在不会幸运的情况(尽管它们可能是不寻常的),并且会产生不正确的结果。

然而,运行我的测试,在 2 - 2,000,000 的值中没有显示反例。因此,就其价值而言,除非我的逻辑不正确,否则所述算法中的值应该是安全的,至少可以达到 2,000,000。

这就是我要补充的。好问题,Phazyck,玩得很开心!

于 2012-12-06T22:59:47.063 回答
-2

如果素数 p 整除候选 c,则下一个可被 p 整除的较大候选是 c + p。因此,您的原始代码是正确的。

但是,生成素数列表是一种糟糕的方式。用 n = 1000000 试试,看看它有多慢。问题是当您应该使用筛子时,您正在执行试除法。这是一个简单的筛子(伪代码,我会让你翻译成 Python 或其他语言):

function primes(n)
    sieve := makeArray(2..n, True)
    for p from 2 to n step 1
        if sieve[p]
            output p
            for i from p+p to n step p
                sieve[i] := False

这应该在不到一秒的时间内使质数少于一百万。还有其他更快的筛算法。

这种算法被称为埃拉托色尼筛法,大约在 2200 年前由一位希腊数学家发明。埃拉托色尼是个有趣的家伙:除了筛选素数之外,他还发明了闰日和经纬度系统,准确计算了太阳到地球的距离和地球的周长,并曾一度担任托勒密图书馆的首席图书馆馆长在亚历山大。

当你准备好学习更多关于素数编程的知识时,我谦虚地在我的博客上推荐这篇文章。

于 2012-12-06T17:01:05.733 回答