python - 比较两个 csv 文件内容并将相似的内容存储到变量中

Question

我对 python 真的很陌生，我有两个 csv 文件。第一个（more.csv）的内容为

A123,B456,C789

第二个（less.csv）的内容为

B456

我希望当它们相同时，它们将相似的项目存储到一个名为“相同”的变量中

我认为它会从以下内容开始：

more = open('more.csv','r')
less= open('less.csv','r')
for item in unitid:

谢谢你。

score 2 · Accepted Answer

如果它们只有一行，您可以使用set对象（python 内置）来比较它们，例如：

>>> a = ['A123','B456','C789','D007']
>>> b = ['B456','D007','E009']
>>> c = list(set(a).intersection(b))
>>> print c
['B456', 'D007']

从文件进行比较的完整方法如下所示：

def compare( fileA, fileB ):
    a_file = open(fileA, 'r')
    a_data = a_file.read()
    a_file.close()

    b_file = open(fileB, 'r')
    b_data = b_file.read()
    b_file.close()

    # compare the contents
    a_set = set(a_data.split(','))
    b_set = set(b_data.split(','))

    return list(a_set.intersection(b_set))

compare('more.csv', 'less.csv')

如果每个文件不止一行，那么您仍然可以使用它，您只需对其进行一些修改 - 我想将交叉点存储到一个表示逐行相似性的数组中或者其他的东西。

score 1 · Accepted Answer

将 CSV 文件处理成列表后，您可以使用它collections.Counter来查找重复项：

from collections import Counter

# after processing your CSV files into two lists:
more_list = ['A123', 'B456', 'C789', 'D007']
less_list = ['B456', 'D007', 'E009']

dupe_counter = Counter(more_list)
dupe_counter.update(less_list)
same_list = [val for val in dupe_counter if dupe_counter[val] > 1]
# same_list will be: ['B456', 'D007']

python - 比较两个 csv 文件内容并将相似的内容存储到变量中

2 回答 2

Related

Reference