Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我有两个数据源,它们都返回 JSON。
我想确保两个 JSON 中存在一定百分比的匹配(数据重叠,如果你愿意的话),以便整理它们并存储在单个记录中。
比较两个字符串的熵是最好的方法吗?还有其他解决方案吗?我使用 Java,也可以使用 scala。
您可以将它们转换为 xml 然后使用xdiff算法,或者将每个 json 记录放在一行中,然后使用 unix diff。或者将其转换为内部树表示,并应用并行树差分算法。这取决于您要寻找什么样的差异,而不取决于实现语言。
diff