Skip to main content

前缀树(字典树)

前缀树字典树)又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。 典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。

它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希树高。

实现 Trie (前缀树)

LeetCode 208. 实现 Trie (前缀树)

Trie(发音类似 "try")或者说 前缀树 是一种树形数据结构,用于高效地存储和检索字符串数据集中的键。 这一数据结构有相当多的应用情景,例如自动补完和拼写检查。

请你实现 Trie
  • Trie() 初始化前缀树对象。
  • void insert(String word) 向前缀树中插入字符串 word 。
  • boolean search(String word) 如果字符串 word 在前缀树中,返回 true(即,在检索之前已经插入);否则,返回 false 。
  • boolean startsWith(String prefix) 如果之前已经插入的字符串 word 的前缀之一为 prefix ,返回 true ;否则,返回 false 。

实现原理

Trie,又称前缀树或字典树,是一棵有根树,其每个节点包含以下字段:

  • 指向子节点的指针数组children。对于本题而言,数组长度为 26,即小写英文字母的数量。
    • 此时 children[0] 对应小写字母 a,children[1] 对应小写字母 b,…,children[25] 对应小写字母 z。
  • 布尔字段 isEnd,表示该节点是否为字符串的结尾。

插入字符串:
我们从字典树的根开始,插入字符串。对于当前字符对应的子节点,有两种情况:

  • 子节点存在。沿着指针移动到子节点,继续处理下一个字符。
  • 子节点不存在。创建一个新的子节点,记录在 children 数组的对应位置上,然后沿着指针移动到子节点,继续搜索下一个字符。

重复以上步骤,直到处理字符串的最后一个字符,然后将当前节点标记为字符串的结尾。

查找前缀
我们从字典树的根开始,查找前缀。对于当前字符对应的子节点,有两种情况:

  • 子节点存在。沿着指针移动到子节点,继续搜索下一个字符。
  • 子节点不存在。说明字典树中不包含该前缀,返回空指针。
  • 重复以上步骤,直到返回空指针或搜索完前缀的最后一个字符。

若搜索到了前缀的末尾,就说明字典树中存在该前缀。此外,若前缀末尾对应节点的 isEnd 为真,则说明字典树中存在该字符串。

var Trie = function() {
this.children = {}
};

/**
* @param {string} word
* @return {void}
*/
Trie.prototype.insert = function(word) {
let node = this.children;
for(const char of word) {
if(!node[char]) {
node[char] = {};
}
node = node[char];
}
node.isEnd = true;
};

Trie.prototype.searchPrefix = function(word) {
let node = this.children;
for(const char of word) {
if(!node[char]) {
return false;
}
node = node[char];
}
return node;
};

/**
* @param {string} word
* @return {boolean}
*/
Trie.prototype.search = function(word) {
let res = this.searchPrefix(word);
return res !== undefined && res.isEnd !== undefined;
};

/**
* @param {string} prefix
* @return {boolean}
*/
Trie.prototype.startsWith = function(prefix) {
return this.searchPrefix(prefix);
};

复杂度

  • 时间复杂度:初始化为 O(1),其余操作为 O(S∣S∣),其中 S∣S∣ 是每次插入或查询的字符串的长度
  • 空间复杂度:O(TΣ|T|\cdot\Sigma),其中 T|T| 为所有插入字符串的长度之和,Σ\Sigma 为字符集的大小,本题 Σ=26\Sigma=26

例题

LeetCode 第 311 场周赛 第四题

字符串的前缀分数和

6183. 字符串的前缀分数和

给你一个长度为 n 的数组 words ,该数组由 非空 字符串组成。

定义字符串 word 的 分数 等于以 word 作为 前缀 的 words[i] 的数目。

例如,如果 words = ["a", "ab", "abc", "cab"] ,那么 "ab" 的分数是 2 ,因为 "ab" 是 "ab" 和 "abc" 的一个前缀。
返回一个长度为 n 的数组 answer ,其中 answer[i] 是words[i] 的每个非空前缀的分数 总和 。

注意:字符串视作它自身的一个前缀。

来源:力扣(LeetCode)
链接:https://leetcode.cn/problems/sum-of-prefix-scores-of-strings
著作权归领扣网络所有。商业转载请联系官方授权,非商业转载请注明出处。

示例

输入:words = ["abc","ab","bc","b"]
输出:[5,4,3,2]
解释:对应每个字符串的答案如下:

  • "abc" 有 3 个前缀:"a"、"ab" 和 "abc" 。
  • 2 个字符串的前缀为 "a" ,2 个字符串的前缀为 "ab" ,1 个字符串的前缀为 "abc" 。 总计 answer[0] = 2 + 2 + 1 = 5 。
  • "ab" 有 2 个前缀:"a" 和 "ab" 。
  • 2 个字符串的前缀为 "a" ,2 个字符串的前缀为 "ab" 。 总计 answer[1] = 2 + 2 = 4 。
  • "bc" 有 2 个前缀:"b" 和 "bc" 。
  • 2 个字符串的前缀为 "b" ,1 个字符串的前缀为 "bc" 。 总计 answer[2] = 2 + 1 = 3 。
  • "b" 有 1 个前缀:"b"。
  • 2 个字符串的前缀为 "b" 。 总计 answer[3] = 2 。

普通方法求该题,需要嵌套好几个循环,很容易就超时(周赛的泪

这题需要使用一个你也许从没听过的(我就是)数据结构:前缀树(也叫字典树)。

具体实现前缀树可以看208题

在这里,需要按需更改前缀树来满足需求,因为如果不在构造前缀树时计数,之后再计数的话也会超时。。。

代码

var sumPrefixScores = function(words) {
// 构造前缀树
const tries = new Trie();
for(const word of words) {
tries.insert(word);
}

const ans = new Array(words.length).fill(0);

// 查找每一个字符串对应的总和
for(let i = 0;i<words.length;i++) {
ans[i] += tries.searchPrefix(words[i]);
}
return ans;
};


/*
* 构造前缀树/字典树
*/
var Trie = function() {
// 这里我把构造的结构都放在children里
this.children = {}
};
// 插入字符串
Trie.prototype.insert = function(word) {
let node = this.children;
for(const char of word) {
if(!node[char]) {
// 正常情况下应该是 node[char] = {};
// 这里加上一个num,用来统计数量,方便之后获取来到这里的前缀字符的分数
node[char] = {
// 不是 1 是因为下面统一加 1
num: 0
};
}
node = node[char];
// 加 1
node.num++;
}
};
Trie.prototype.searchPrefix = function(word) {
let node = this.children;
let res = 0;
for(const char of word) {
if(node[char]) {
node = node[char];
// 统计分数
res += node.num;
} else {
return 0;
}
}
return res;
};
执行用时:1012 ms
内存消耗:89.5 MB