1

我有一个包含许多列的 FITS 文件。该文件的简化示例的一部分如下所示:

    A      B      C
   100     1      90
   100     2      90
   100     3      90
   100     4      90
   211     40     70
   211     41     70
   211     42     70
   211     43     70
   211     44     70

如果您注意到这里, A 列和 C列的前四行相同,但B列从 1 到 4 不等。那么A 和 C列的接下来 5 个值相同,但B列从 40 到 44 不等。

我想做的是,编写一个程序来创建这样的文件:

   A      B     C
  100     4     90
  211     5     70

也就是说,B 列应该包含 A 列和 C 列相同的值的数量!

我想知道如何在 Python 中做到这一点。它不一定需要处理一个FITS文件,如果FITS文件中有一些不能使用的例程,我也可以将其转换为ASCII格式。

到目前为止我已经尝试过:

我碰到了一个调用的例程Collections,它有一个调用的子例程Counter,它计算列表中相等的值的数量并返回它们。

我试过了:

import collections
counter = collections.Counter(a)
counts = counter.values()

但这只会给我A列中相等的值。有人可以告诉我如何使用此例程将这些值也与C列进行比较吗?

4

4 回答 4

5

我会去做这样的事情......:

from itertools import groupby
from operator import itemgetter

with open('input') as fin, open('output', 'w') as fout:
    fout.write(next(fin, ''))
    rows = (line.split() for line in fin)
    for k, g in groupby(rows, itemgetter(0, 2)):
        fout.write('{} {} {}\n'.format(k[0], sum(1 for _ in g), k[1]))
  • 直接写标题...
  • 构建生成器以生成按空格分隔的行
  • 用于itertools.groupby分组第一列和第三列
  • 计算出现的次数g以获得组的长度
  • 根据需要写出格式化的行...

collections.Counter如果组是不连续的并且应计为一个,您也可以使用 a ,您可以将其groupby替换为以下内容:

counts = Counter((row[0], row[2]) for row in rows)
for k, v in counts.iteritems():
    fout.write('{} {} {}\n'.format(k[0], v, k[1]) # or even...
            # print >> fout, k[0], v, k[1] 
于 2014-06-29T12:48:17.047 回答
3

这似乎按预期工作:

out = [["A", "B", "C"]]

# Safely handle opening the file
with open("demo.txt") as f:
    a_count = 1
    prev_a = None

    for i, line in enumerate(f):
        a, b, c = [int(x) for x in line.split()]

        if i != 0:
            if prev_a == a and prev_c == c:
                a_count += 1
            else:
                out.append([prev_a, a_count, prev_c])
                a_count = 1

        # Keep track of our last results
        prev_a, prev_c = a, c

    # Collect the final line counts
    if prev_a:
        out.append([prev_a, a_count, prev_c])

# Pretty-print our results
for line in out:
    print "{0: ^6}{1: ^6}{2: ^6}".format(*line)
于 2014-06-29T12:18:14.973 回答
0

您应该在问题中添加一些代码,以显示您尝试过的内容。如果人们看不到你已经尝试过——包括我自己,他们通常不会愿意提供太多帮助。

作为逻辑方面的提示(基本。有更简洁的方法):

尝试使用由 A 列和 C 列的数字组成的键的字典。然后,只要 A 和 C 相同,就在字典中搜索具有该组合的键,如果找到,则将值加 1,如果未找到,则添加一个新元素。

使用你的例子(在伪代码中 - 所以你有事要做:P)

if "100-90" in array:  // Checking if the element is in the array
  array["100-90"] += 1  // Adds one to an existing element
else
  array["100-90] = 1  // Adds a new element into array
于 2014-06-29T11:48:22.150 回答
0

尝试这个:

lines = """100 1 90
100 2 90
100 3 90
100 4 90
211 40 70
211 41 70
211 42 70
211 43 70
211 44 70""".split("\n")

count = 0
oldA = oldB = oldC = None
for line in lines:

    a,b,c = line.split(" ")
    if None in [oldA, oldB, oldC]:
        oldA,oldB,oldC = a,b,c

    if oldA == a and oldC == c:
        count +=1

    else:
        print oldA,count,oldC
        count = 1
        oldA, oldB, oldC = a,b,c

print oldA,count,oldC
于 2014-06-29T12:08:05.213 回答