解决方案
方法一:水平扫描法
思路
首先,我们将描述一种查找一组字符串的最长公共前缀 的简单方法。 我们将会用到这样的结论:
算法
为了运用这种思想,算法要依次遍历字符串 ,当遍历到第 个字符串的时候,找到最长公共前缀 。当 是一个空串的时候,算法就结束了。 否则,在执行了 次遍历之后,算法就会返回最终答案 。
图 1. 查找最长公共前缀 (水平扫描法)
复杂度分析
-
时间复杂度:,S 是所有字符串中字符数量的总和。
最坏的情况下, 个字符串都是相同的。 算法会将 与其他字符串 都做一次比较。这样就会进行 次字符比较,其中 是输入数据中所有字符数量。
-
空间复杂度:, 我们只需要使用常数级别的额外空间。
算法二:水平扫描
算法
想象数组的末尾有一个非常短的字符串, 使用上述方法依旧会进行 次比较。 优化这类情况的一种方法就是水平扫描。 我们从前往后枚举字符串的每一列,先比较每个字符串相同列上的字符(即不同字符串相同下标的字符)然后再进行对下一列的比较。
复杂度分析
-
时间复杂度:,S 是所有字符串中字符数量的总和。
最坏情况下,输入数据为 个长度为 的相同字符串,算法会进行 次比较。可以看到最坏情况下,本算法的效率与算法一相同,但是最好的情况下,算法只需要进行 次比较,其中 是数组中最短字符串的长度。
-
空间复杂度:, 我们只需要使用常数级别的额外空间。
算法三:分治
思路
这个算法的思路来自于LCP操作的结合律。 我们可以发现: ,其中 是字符串 的最长公共前缀,。
算法
为了应用上述的结论,我们使用分治的技巧,将原问题 分成两个子问题 与 ,其中 mid
=。 我们用子问题的解 lcpLeft
与 lcpRight
构造原问题的解 。 从头到尾挨个比较 lcpLeft
与 lcpRight
中的字符,直到不能再匹配为止。 计算所得的 lcpLeft
与 lcpRight
最长公共前缀就是原问题的解 。
图 2. 查找最长公共前缀的分治方法
复杂度分析
最坏情况下,我们有 个长度为 的相同字符串。
-
时间复杂度:, 是所有字符串中字符数量的总和,。
时间复杂度的递推式为 , 化简后可知其就是 。最好情况下,算法会进行 次比较,其中 是数组中最短字符串的长度。
-
空间复杂度:
内存开支主要是递归过程中使用的栈空间所消耗的。 一共会进行 次递归,每次需要 的空间存储返回结果,所以空间复杂度为 。
方法四:二分查找法
这个想法是应用二分查找法找到所有字符串的公共前缀的最大长度 L
。 算法的查找区间是 ,其中 minLen
是输入数据中最短的字符串的长度,同时也是答案的最长可能长度。 每一次将查找区间一分为二,然后丢弃一定不包含最终答案的那一个。算法进行的过程中一共会出现两种可能情况:
-
S[1...mid]
不是所有串的公共前缀。 这表明对于所有的j > i S[1..j]
也不是公共前缀,于是我们就可以丢弃后半个查找区间。 -
S[1...mid]
是所有串的公共前缀。 这表示对于所有的i < j S[1..i]
都是可行的公共前缀,因为我们要找最长的公共前缀,所以我们可以把前半个查找区间丢弃。
图 3. 使用二分查找法寻找最长公共前缀
复杂度分析
最坏情况下,我们有 个长度为 的相同字符串。
-
时间复杂度:,其中 所有字符串中字符数量的总和。
算法一共会进行 次迭代,每次一都会进行 次比较,所以总时间复杂度为 。
-
空间复杂度:,我们只需要使用常数级别的额外空间。
更进一步
让我们看一个有些不同的问题:
给定一些键值字符串 S = ,我们要找到字符串
q
与 S 的最长公共前缀。 这样的查询操作可能会非常频繁。
我们可以通过将所有的键值 S 存储到一颗字典树中来优化最长公共前缀查询操作。 如果你想获得更多关于字典树的信息,可以查看这篇文章 Implement a trie (Prefix trie) 。在字典树中,从根向下的每一个节点都代表一些键值的公共前缀。 但是我们需要找到字符串q
和所有键值字符串的最长公共前缀。 这意味着我们需要从根找到一条最深的路径,满足以下条件:
-
这是所查询的字符串
q
的一个前缀 -
路径上的每一个节点都有且仅有一个孩子。 否则,找到的路径就不是所有字符串的公共前缀
-
路径不包含被标记成某一个键值字符串结尾的节点。 因为最长公共前缀不可能比某个字符串本身长
算法
最后的问题就是如何找到字典树中满足上述所有要求的最深节点。 最有效的方法就是建立一颗包含字符串 的字典树。 然后在这颗树中匹配 q
的前缀。 我们从根节点遍历这颗字典树,直到因为不能满足某个条件而不能再遍历为止。
图 4. 使用字典树查找最长公共前缀
复杂度分析
最坏情况下查询字符串 的长度为 并且它与数组中 个字符串均相同。
-
时间复杂度:预处理过程 ,其中 数组里所有字符串中字符数量的总和,最长公共前缀查询操作的复杂度为 。
建立字典树的时间复杂度为 。 在字典树中查找字符串 的最长公共前缀在最坏情况下需要 的时间。
-
空间复杂度:, 我们只需要使用额外的 空间建立字典树。