0

我有一个这种格式的 csv 文件

Country State   City    County
X       A       
X       A       R   
X       A       R       X
X       A       R       Y
X       B       
X       B       S   
X       B       S       X

它表示树(包含)关系。现在我需要插入 id 和 parent id,它们反映了这种关系。例如:Y (id=5) 的父级是 R,其 id 为 3。因此 Y 的父级字段为 3。

id  parent  Country State   City    County
1   0       X    
2   1       X       A       
3   2       X       A       R   
4   3       X       A       R       X
5   3       X       A       R       Y
6   1       X       B       
7   6       X       B       S   
8   7       X       B       S       X

由于条目数以千计,因此手动执行非常繁琐。我怎样才能在 Python 中做到这一点。即读取文件(第一个块)并输出插入的 id 和父级(上面的第二个代码块)

4

2 回答 2

1

这没有吸引力(也不是 Python,所以如果不能以这种方式执行此操作,我们深表歉意),但如果您想避免编写脚本,您可以使用它(假设屏幕截图中的设置):

=INDEX(
       $A$1:$A$9,
      MATCH(
            INDIRECT(ADDRESS(ROW(),COUNTA(C2:F2)+1)),
            INDIRECT(
                  SUBSTITUTE(ADDRESS(1,COUNTA(C2:F2)+1,4) & ":" & ADDRESS(1,COUNTA(C2:F2)+1,4),"1","")),
             0),
        1)

这假设数据的顺序是这样的,即在引用父 ID 之前定义它。要填充ID,您可以使用Fill Series创建递增列表。同样,这并不漂亮(并且可能不适合您的需要),但这是您可以避免编写脚本的一种方法(如果您需要 Python,JoranBeasley 建议使用 CSV 模块是可行的方法)。

在此处输入图像描述

于 2012-10-04T21:59:06.027 回答
1

编辑:这个解决方案应该更清楚。这是对先前解决方案(12)的返工,而不是一种新方法。一个循环并且没有复制使这个更容易理解。

导入复制导入csv导入StringIO

csv_str = """X,,,
X,A,,
X,A,R,
X,A,R,X
X,A,R,Y
X,B,,
X,B,S,
X,B,S,X
"""

reader = csv.reader(StringIO.StringIO(csv_str))

idx = 0
data = []

for row in reader:
    # insert the row id
    row.insert(0, idx + 1)

    # insert a dummy parent id, it will be replaced with the real
    # value later
    row.insert(1, -1)

    # how deep is the current row
    depth = len([r for r in row if r is not ''])
    # insert the depth as the last value in the row
    row.append(depth)

    if idx > 0:
        # if it's not the first row, calculate it's parent

        # calculate the depth of the previous row
        prev_depth = data[idx - 1][-1]
        if depth > prev_depth:
            # if it's deeper than the previous row, then the previous
            # row is the parent row
            row[1] = data[idx - 1][0]
        elif depth == prev_depth:
            # if it's the same depth as the previous row then it has
            # the same parent as the previous row
            row[1] = data[idx - 1][3]
        else:
            # if it's shallower than the previos row, find the
            # nearest previous row with the same depth and use it's
            # parent as this row's parent.
            ridx = idx - 1
            while (prev_depth != depth and ridx >= 0):
                prev_depth = data[ridx - 1][-1]
                ridx -= 1
            row[1] = data[ridx - 1][0]
    else:
        # if it's the first row it's parent is 0
        row[1] = 0

    # store the new row
    data.append(row)
    idx += 1


# write the CSV
output = StringIO.StringIO()
writer = csv.writer(output)
for row in data:
    # skip the depth value in each row
    writer.writerow(row[:-1])

print output.getvalue()

您可以在此处查看代码:http: //codepad.org/DvGtOw8G

于 2012-10-04T22:31:36.290 回答