这是一个很好的面试问题。
关键点
有2个关键点:
- 单个字符必须编码为
c1
;
- 编码长度总是小于原始数组。
从 1 开始,我们知道每个字符至少需要 2 个位置进行编码。也就是说,只有单个字符需要更多的空格进行编码。
简单的方法
从关键点,我们注意到单个字符在编码过程中给我们带来了很多问题,因为它们可能没有足够的空间来保存编码的字符串。那么我们先留下它们,然后先压缩其他字符怎么样?
例如,我们aaaaabcddddee
从后面编码,同时先保留单个字符,我们将得到:
aaaaabcddddee
_____a5bcd4e2
然后我们可以安全地从头开始对部分编码的序列进行编码,给定关键点 2,以便有足够的空间。
分析
似乎我们已经找到了解决方案,完成了吗?不。考虑这个字符串:
aaa3dd11ee4ff666
这个问题不限制字符的范围,所以我们也可以使用数字。在这种情况下,如果我们仍然使用相同的方法,我们将得到:
aaa3dd11ee4ff666
__a33d212e24f263
好的,现在告诉我,你如何区分游程长度和原始字符串中的那些数字?
好吧,我们需要尝试其他方法。
让我们将Encode Benefit(E)定义为:编码序列与原始连续字符序列的长度差。.
例如aa
has E = 0
, sinceaa
将被编码为a2
,并且它们没有长度差异;aaa
有E = 1
,因为它将被编码为a3
,并且编码和原始之间的长度差是1
。让我们看一下单个字符的情况,它是什么E
?是的,它是-1
。E
根据定义,我们可以推导出:的公式E = ori_len - encoded_len
。
现在让我们回到问题上来。从关键点 2,我们知道编码的字符串总是比原始字符串短。我们如何用它E
来重新表述这个关键点?
很简单:sigma(E_i) >= 0
,E_i
第Encode Benefit
i个连续字符子串的第i个在哪里。
例如,您在问题中给出的示例:aaaaabcddddee
,可以分为 5 个部分:
E(0) = 5 - 2 = 3 // aaaaa -> a5
E(1) = 1 - 2 = -1 // b -> b1
E(2) = 1 - 2 = -1 // c -> c1
E(3) = 4 - 2 = 2 // dddd -> d4
E(4) = 2 - 2 = 0 // ee -> e2
西格玛将是:3 + (-1) + (-1) + 2 + 0 = 3 > 0
。这意味着编码后将留下 3 个空格。
但是,从这个例子中,我们可以看到一个潜在的问题:由于我们在做求和,即使最终的答案大于 0,也有可能在中间得到一些负数!
是的,这是一个问题,而且非常严重。如果我们E
低于0
,这意味着我们没有足够的空间来编码当前字符并且会覆盖它之后的一些字符。
但是但是但是,为什么我们需要从第一组中求和呢?为什么我们不能从中间的某个地方开始求和以跳过负数部分?让我们看一个例子:
2 0 -1 -1 -1 1 3 -1
-1
如果我们从头开始总结,在索引 4 处添加第三个(从 0 开始)后,我们将跌至 0 以下;如果我们从索引 5 总结,当我们到达终点时循环回到索引 0,我们没有问题。
算法
分析使我们对算法有了深入的了解:
- 从头开始,计算
E
当前连续组,并加到总数中E_total
;
- 如果
E_total
仍然是非负数(>= 0),我们很好,我们可以安全地进入下一组;
- 如果
E_total
低于0,我们需要从当前位置重新开始,即清除E_total
并进入下一个位置。
如果我们到达序列的末尾并且E_total
仍然是非负数,那么最后一个起点就是一个好的开始!这一步需要O(n)
时间。通常我们需要循环回来再次检查,但是从关键点2开始,我们肯定会有一个有效的答案,所以我们可以安全地停在这里。
然后我们可以回到起点并开始传统的行程编码,到达终点后我们需要回到序列的开头来完成第一部分。棘手的部分是,我们需要利用字符串末尾的剩余空格。在那之后,我们需要做一些移位以防万一我们有一些顺序问题,并删除任何多余的空格,然后我们终于完成了:)
因此,我们有一个解决方案(代码只是伪代码,尚未验证):
// find the position first
i = j = E_total = pos = 0;
while (i < s.length) {
while (s[i] == s[j]) j ++;
E_total += calculate_encode_benefit(i, j);
if (E_total < 0) {
E_total = 0;
pos = j;
}
i = j;
}
// do run length encoding as usual:
// start from pos, end with len(s) - 1, the first available place is pos
int last_available_pos = runlength(s, pos, len(s)-1, pos);
// a tricky part here is to make use of the remaining spaces from the end!!!
int fin_pos = runlength(s, 0, pos-1, last_available_pos);
// eliminate the white
eliminate(s, fin_pos, pos);
// update last_available_pos because of elimination
last_available_pos -= pos - fin_pos < 0 ? 0 : pos - fin_pos;
// rotate back
rotate(s, last_available_pos);
复杂
我们在算法中有 4 个部分:
- 寻找起点:
O(n)
- 整个字符串的运行长度编码:
O(n)
- 空白消除:
O(n)
- 就地字符串旋转:
O(n)
因此,我们O(n)
总共有。
可视化
假设我们需要对这个字符串进行编码:abccdddefggggghhhhh
第一步,我们需要找到起始位置:
Group 1: a -> E_total += -1 -> E_total = -1 < 0 -> E_total = 0, pos = 1;
Group 2: b -> E_total += -1 -> E_total = -1 < 0 -> E_total = 0, pos = 2;
Group 3: cc -> E_total += 0 -> E_total = 0 >= 0 -> proceed;
Group 4: ddd -> E_total += 1 -> E_total = 1 >= 0 -> proceed;
Group 5: e -> E_total += -1 -> E_total = 0 >= 0 -> proceed;
Group 6: f -> E_total += -1 -> E_total = -1 < 0 -> E_total = 0, pos = 9;
Group 7: ggggg -> E_total += 3 -> E_total = 3 >= 0 -> proceed;
Group 8: hhhhh -> E_total += 3 -> E_total = 6 >= 0 -> end;
所以起始位置将是 9:
v this is the starting point
abccdddefggggghhhhh
abccdddefg5h5______
^ last_available_pos, we need to make use of these remaining spaces
abccdddefg5h5a1b1c2
d3e1f1___g5h5a1b1c2
^^^ remove the white space
d3e1f1g5h5a1b1c2
^ last_available_pos, rotate
a1b1c2d3e1f1g5h5
最后的话
这个问题不简单,实际上是把几个传统的编码面试问题自然地粘在一起了。建议的思维流程是:
- 观察模式,找出关键点;
- 意识到空间不足的原因是因为编码单个字符;
- 量化每个连续字符组的编码收益/成本(又名编码收益);
- 使用您提出的量化来解释原始陈述;
- 找出算法找到一个好的起点;
- 找出如何以良好的起点进行行程编码;
- 意识到您需要旋转编码的字符串并消除空格;
- 找出进行就地字符串旋转的算法;
- 找出算法来进行适当的空白消除。
老实说,对于一个被采访者来说,在短时间内想出一个可靠的算法有点挑战性,所以你的分析流程真的很重要。什么都不说,展示你的思维导图,这有助于面试官了解你目前的阶段。