list - 删除 xls 文件中的重复项

Question

我正在尝试编写一个 python 脚本，该脚本能够获取 xls 文件中每一行的内容，从中提取单词列表（使用 rex 具有特定模式），并将该列表与在当前行之后的所有行中提取的所有列表进行比较行直到文件末尾。并删除具有相同列表的行。请注意，两个列表中的单词可能是无序的，但它们的内容仍然相同。

我很感激任何帮助。

score 1 · Accepted Answer

这个问题非常类似于从未排序的数组中删除相似的元素。您需要做的是根据与您的正则表达式匹配的单词数对所有行进行哈希处理，然后在每个桶中比较相似性。

你使代码也非常可扩展。

     buckets={}
     for row in rows:
          if bucket[row.length] is None:
               bucket[row.length]={}
          bucket[row.length].append(row)
      #now do your matching 
      for bucket in buckets:
          #match and delete.

list - 删除 xls 文件中的重复项

1 回答 1

Related

Reference