java - 逐行解析 2 个文件并需要避免重复（在特殊情况下）

Question

我有 2 个文件正在逐行解析，将信息添加到 2 个单独的ArrayList<String>容器中。我正在尝试创建一个finalPNList反映下面“结果文件/数组列表”的最终容器“”。

问题是我没有成功避免重复。我已经以各种方式更改了代码但没有成功。有时我限制条件太多，避免所有重复，有时我把它放得太松，包括所有重复。我似乎找不到使它恰到好处的条件。

这是到目前为止的代码——在这种情况下，看到 ins 的内容processLine()并不真正相关，只知道你得到了一张带有 2 的地图ArrayLists<String>

public static Map<String, List<String>> masterList = new HashMap<String, List<String>>();
public static List<String> finalPNList = new ArrayList<String>();
public static List<String> modifier = new ArrayList<String>();
public static List<String> skipped = new ArrayList<String>();

for (Entry<String, String> e : tab1.entrySet()) {
    String key = e.getKey();
    String val = e.getValue();

    // returns BufferedReader to start line processing
    inputStream = getFileHandle(val);
    // builds masterList containing all data
    masterList.put(key, processLine(inputStream));
}
for (Entry<String, List<String>> e : masterList.entrySet()) {
    String key = e.getKey();
    List<String> val = e.getValue();
    System.out.println(modifier.size());
    for (String s : val) {
        if (modifier.size() == 0)
            finalPNList.add(s);
        if (!modifier.isEmpty() && finalPNList.contains(s)
                && !modifier.contains(key)) {
            // s has been added by parent process so SKIP!
            skipped.add(s);
        } else
            finalPNList.add(s);    
    }    
    modifier.add(key);
}

以下是数据的样子（非常简化处理大约 20K 行，每个文件中大约 10K 行）：

文件 A

123;data
123;data
456,data

文件 B

123;data
789,data
789,data

结果文件/数组列表

123;data
123;data
789,data
789,data

score 1 · Accepted Answer

!modifier.contains(key)总是正确的，它可以从你的 if 语句中删除。
modifier.size() == 0可以替换为modifier.isEmpty()。
由于您似乎想从文件 B 添加重复项，因此您需要检查文件 A，而不是finalPNList在检查是否存在时（我刚刚检查了中的适用列表masterList，请随时将其更改为更合适/更有效的内容）。
您需要else在第一个 if 语句之后添加一个，否则您将从文件 A 中添加两次项目。
我假设你只是错过456了你的输出，否则我可能不太明白。

用您的文件 IO 修改的代码替换为更符合SSCCE精神的东西：

masterList.put("A", Arrays.asList("123","123","456"));
masterList.put("B", Arrays.asList("123","789","789"));
for (Map.Entry<String, List<String>> e : masterList.entrySet()) {
    String key = e.getKey();
    List<String> val = e.getValue();
    System.out.println(modifier.size());
    for (String s : val) {
        if (modifier.isEmpty())
            finalPNList.add(s);
        else if (!modifier.isEmpty() && masterList.get("A").contains(s)) {
            // s has been added by parent process so SKIP!
            skipped.add(s);
        } else
            finalPNList.add(s);    
    }    
    modifier.add(key);
}

测试。

java - 逐行解析 2 个文件并需要避免重复（在特殊情况下）

1 回答 1

Related

Reference