我有一个超过 100k 行的大文本文件。有些行是重复的。我想在处理它们之前对这些条目进行重复数据删除。我正在使用 Visual Basic 2010 Express 来编写这个。
文本文件示例:
132165
165461
646843
654654
321358
132165
165461
我想在处理这些条目之前对其进行重复数据删除
你可以使用一个HashSet(Of T)
Dim nodupes As New HashSet(Of String)(File.ReadLines(path))
For Each str As String In nodupes
' no duplicate here '
Next
编辑由于 aHashSet(Of T)
不保证保留插入顺序,如果需要确保此顺序,您可以使用以下代码:
Dim nodupeSet As New HashSet(Of String)
Dim nodupes = From line In File.ReadLines(path)
Where nodupeSet.Add(line)
For Each str As String In nodupes
' no duplicate here '
Next