第九章查找-洪萨配资

查找的基本概念、顺序查找法、折半查找法

查找的基本概念

查找的定义：给定一个值k，在含有n个记录的表中找出关键字等于k的记录
若找到，则查找成功，返回该记录的信息或该记录在表中的位置；否则查找失败，返回相关的提示信息
举例一个记录的结构类型定义如下：

typedefstruct{intkey;//关键字域...//其他域}Elemtype;

上述记录包含的内容除关键字外，还有很多其他内容。而查找时是靠关键字域来区分不同记录的，和记录中的其他内容无关。因此可以把记录简化，让记录中只存在关键字，上述结构体就可以简化成一句int key;

采取何种方法进行查找的相关因素如下：

使用哪种数据结构来表示查找表，即查找表中的记录是按照何种方式组织的
查找表中关键字的次序，即对无序集合查找还是对有序集合查找

由于查找算法的基本操作是关键字的比较，并且关键字的比较次数与待查找关键字有关（对于一个查找表来说，对其中不同的关键字进行查找，关键字的比较次数一般不同），因此通常把查找过程中对关键字的平均比较次数（也成为平均查找次数）作为衡量一个查找算法效率优劣的标准。平均查找长度用ASL表示，定义为：
ASL=∑i=1npi×ci ASL =\displaystyle\sum_{i=1}^np_i×c_iASL=i=1∑npi×ci
式中：n是查找表中记录的个数；pip_ipi是查找第i个记录的概率，一般取1/n；cic_ici是找到第i个记录所需要进行比较的次数，即查找长度
知道了ASL就能求出一个查找算法的时间复杂度

顺序查找法

顺序查找法的基本思路：从表的一端开始，顺序扫描线性表，依次将扫描到的关键字和给定值k进行比较，若当前扫描的关键字与k相等，则查找成功；若扫描结束后仍未发现关键字等于k的记录，则查找失败。
顺序查找法对于顺序表和链表都是适用的

例题：数组a[]中有n个整数，没有次序，数组从下标1开始存储，请写出查找任一元素k的算法，若查找成功，则返回元素在数组中的位置；若查找不成功，则返回0。计算其平均查找长度。

intSearch(inta[],intn,intk){inti;for(i=1;i<=n;++i)if(a[i]==k)returni;return0;}

ASL有两种，一种是查找成功情况下的ASL1ASL_1ASL1，另一种是查找失败情况下的ASL2ASL_2ASL2
对于第一种，pi=1/np_i = 1/npi=1/n，ci=ic_i = ici=i，若k等于a[i]，则在扫描到a[i]之前已经进行了i-1次比较，加上最后一次一共进行了i次比较，因此
ASL1=∑i=1ni/n=(1/n)∗n∗(1+n)/2=(n+1)/2 ASL_1 = \displaystyle\sum_{i=1}^n i/n = (1/n)*n*(1+n)/2 = (n+1)/2ASL1=i=1∑ni/n=(1/n)∗n∗(1+n)/2=(n+1)/2
对于第二种，k在a[]中值之外的范围内取值，则查找不成功。这时k的取值是无线的，但是对于k的任意一个取值，其查找长度必为n。从上述代码的if语句可以看出，对于所有的i值，a[i] == k都不成立，则循环必执行n次，即必有n次比较。因此ASL2=nASL_2 = nASL2=n

折半查找法

折半查找要求线性表是有序的，即表中记录按关键字排序（假设递增有序）
折半查找的基本思路：设R[low,…,high]是当前的查找区间，首先确定该区间的中间位置mid=(low+high)/2；然后将待查的k值与R[mid]比较，若相等，则查找成功，并返回该位置，否则需确定新的查找区间。若R[mid]>k，则由表的有序性可知R[mid,…,high]均大于k，因此要到左边的子表R[low,…,mid-1]中查找。类似地，如果R[mid]<k，则要到右边的子表R[mid+1,…,high]中查找。递归地处理新区间，直到子区间的长度小于1时查找过程结束。

intBsearch(intR[],intlow,inthigh,intk){intmid;while(low<=high){mid=(low+high)/2;if(R[mid]==k)returnmid;elseif(R[mid]>k)high=mid-1;elselow=mid+1;}return-1;}

折半查找的过程可以用二叉树来表示。把当前查找区间的中间位置上的记录作为树根，左子表和右子表中的记录分别作为根的左子树和右子树，由此得到的二叉树称为描述折半查找的判定树。

分块查找

分块查找又称为索引顺序查找，其数据结构可以简单地描述为分块查找把线性表分成若干块，每一块中的元素存储顺序是任意的，但是块与块之间必须按照关键字大小有序排列，即前一块中的最大关键字要小于后一块中的最小关键字。对顺序表进行分块查找需要额外建立一个索引表，表中的每一项对应线性表中的一块，每个索引项都由键值分量和链值分量组成，键值分量存放对应块的最大关键字，链值分量存放指向本块第一个元素和最后一个元素的指针，显然，索引表中的所有索引项都是按照其关键字的递增顺序排列的。
索引表定义如下：

typedefstruct{intkey;//假设表内元素为int型intlow,high;//记录某块中第一个和最后一个元素的位置}indexElem;indexElem index[maxSize];//定义索引表

算法描述：
分块查找算法非常简单，可以分为两步进行，首先确定待查找的元素属于哪一块，然后再块内精确查找该元素。由于索引表递增有序，因此第一步采用折半查找。块内元素的个数一般比较少，因此第二步采用顺序查找即可。
分块查找实际上是进行两次查找，整个算法的平均查找长度是两次查找的平均查找长度之和，即折半查找平均查找长度+顺序查找平均查找长度

树形查找

二叉排序树

二叉排序树（BST）的定义

二叉排序树要么是空树，要么是满足以下性质的二叉树：

若它的左子树不空，则左子树上所有的关键字均不大于（不小于）根关键字的值
若它的右子树不空，则右子树上所有的关键字均不小于（不大于）根关键字的值
左右子树又各是一棵二叉排序树
说明：由二叉排序树的定义可以直到，如果输出二叉排序树的中序遍历序列，则这个序列是非递减（非递增）有序的，若题目不做说明，排序二叉树结点关键字按左小右大分布

二叉排序树通常采用二叉链表存储，其结点类型定义与一般的二叉树类似

typedefstructBTNode{intkey;structBTNode*lchild;structBTNode*rchild;}BTNode;

二叉排序树的基本算法

查找关键字的算法
实际上折半查找法的判定树就是一棵二叉排序树

BTNode*BSTSearch(BTNode*bt,intkey){if(bt==NULL)returnNULL;else{if(bt->key==key)returnbt;elseif(key<bt->key)returnBSTSearch(bt->lchild,key);elsereturnBSTSearch(bt->rchild,key);}}

插入关键字的算法
要插入关键字，必须找到不影响二叉排序树的有序性的插入位置

intBSTInsert(BTNode*&bt,intkey){if(bt==NULL){bt=(BTNode*)malloc(sizeof(BTNode));bt->lchild=bt->rchild=NULL;bt->key=key;return1;}else{if(key==bt->key)return0;//关键字存在于树中，插入失败，返回0elseif(key<bt->key)returnBSTInsert(bt->lchild,key);elsereturnBSTInsert(bt->rchild,key);}}

构造算法
只需要建立一棵空树，然后将关键字逐个插入到空树中即可构造一棵二叉排序树

voidCreateBST(BTNode*&bt,intkey[],intn){inti;bt=NULL;for(i=0;i<n;++i)BSTInsert(bt,key[i]);}

删除关键字的操作
假设二叉排序树上的被删除结点为p，f为其双亲结点，则删除结点p的过程分为以下三种情况：
（1）p结点为叶子结点。由于删除叶子结点后不会破坏二叉排序树的特性，因此直接删除即可
（2）p结点只有右子树而无左子树，或者只有左子树而无右子树。此时只需要将p删掉，然后将p的子树直接连接在原来p与其双亲结点f相连的指针上即可
（3）p结点既有左子树又有右子树。此时可以将这种情况转化为（1）或（2）中的情况，做法为：先沿着p的左子树根结点的右指针一直往右走，直到来到其右子树的最右边的一个结点r（也可以沿着p的右子树根结点的左指针一直往左走，直到来到其左子树的最左边的一个结点r），然后将p中的关键字用r中的关键字代替。最后判断，如果r是叶子结点，则按照（1）中的方法删除r；如果r是非叶子结点，则按照（2）中的方法删除r

平衡二叉树

平衡二叉树又称为AVL树，是一种特殊的二叉排序树，其左右子树都是平衡二叉树，且左右子树高度之差的绝对值不超过1，即以树中所有结点为根的树的左右子树高度之差的绝对值不超过1

为判断是否为平衡二叉树，引进了平衡因子的概念。平衡因子是针对结点来说的，一个结点的平衡因子为其左子树高度减去右子树高度的差，对于平衡二叉树，树中所有结点的平衡因子的取值只能是-1、0、1

平衡二叉树的建立过程和建立二叉排序树的过程基本一样，都是将其关键字逐个插入空树中的过程，但是每插入一个新的关键字都要进行检查，看新插入的关键字是否会使原平衡二叉树失去平衡，即树中出现平衡因子绝对值大于1的结点，如果失去平衡则要进行平衡调整

平衡调整时要先找出插入后失去平衡的最小子树，再调整这棵子树，调整之后无需调整其他非最小的不平衡子树

删除时同二叉排序树的删除

平衡调整有四种：LL调整、LR调整、RR调整、RL调整

这四种命名不是对调整过程的描述，而是对不平衡状态的描述

如LL调整，描述的是新插入结点落在最小不平衡子树根结点的左（L）孩子的（L）左子树上

B-树的基本概念、B+树的基本概念

B-树（B树）的基本概念

B-树种所有结点的孩子结点个数的最大值称为B-树的阶，通常用m表示，从查找效率考虑，要求m≥3.一棵m阶的B-树要么是一棵空树，要么是满足以下要求的m叉树：
（1）每个结点最多有m个分支（子树）；而最少分支数要看是否为根结点，如果是根结点且不是叶子结点，则至少有两个分支，非根非叶结点至少有[m/2]个分支（[a]是对a向上取整，即不小于a的最小整数）
（2）有n（k≤n≤m）个分支的结点有n-1个关键字，它们按递增顺序排列。k=2（根结点）或[m/2]（非根结点）
（3）每个结点的结构为：

n	k1k_1k1	k2k_2k2	…	knk_nkn
p0p_0p0	p1p_1p1	p2p_2p2	…	pnp_npn

其中，n为该结点种关键字的个数；kik_iki（1≤i≤n）为该结点的关键字且满足ki<ki+1k_i < k_{i+1}ki<ki+1；pip_ipi（0≤i≤n）为该结点的孩子结点指针且满足pip_ipi（1≤i≤n-1）所指结点上的关键字大于kik_iki且小于ki+1k_{i+1}ki+1，p0p_0p0所指结点上的关键字小于k1k_1k1，pnp_npn所指结点上的关键字大于knk_nkn
（4）结点内各关键字互不相等且按从小到大排列
（5）叶子结点处于同一层；可以用空指针表示，是查找失败到达的位置

B+树的基本概念

B+树是B-树的一种变形，可以对照记忆，它们的差别如下：
（1）在B+树中，具有n个关键字的结点含有n个分支；而在B-树中，具有n个关键字的结点含有n+1个分支
（2）在B+树种，每个结点（除根结点意外）中的关键字个数n的取值范围为[m/2]≤n≤m，根结点的取值范围为2≤n≤m；而在B-树中，它们的取值范围分别是[m/2]-1≤n≤m-1和1≤n≤m-1
（3）在B+树中，叶子结点包含信息，并且包含了全部关键字，叶子结点引出的指针指向记录
（4）B+树种的所有非叶子结点仅起到一个索引作用，即结点中的每个索引项只含有对应子树的最大关键字和指向该子树的指针，不含有该关键字对应记录的存储地址；而在B-树中，每个关键字对应一个记录的存储地址
（5）在B+树中，有一个指针指向关键字最小的叶子结点，所有叶子结点链接成一个线性链表，而B-树没有

散列表

散列表的概念

根据给定的关键字来计算关键字在表中的地址，是散列（Hash）表和其他查找表的不同之处。
在其他的查找表中，关键字的地址跟关键字之间不存在确定的关系；而在Hash表中，关键字和关键字的地址是有确定关系的。这种关系可以用Hash函数H来表示。例如，关键字为key，则H(key)称为Hash地址，即key在查找表中的地址

散列表的建立方法以及冲突解决方法

Hash表的建立方法是根据给定的关键字依照函数H来计算关键字key在表中的地址，并把key存在这个地址上。如Hash函数为H(key) = key Mod 13（Mod：计算两个整数相除后的余数），对于关键字100来说，地址为100 Mod 13 = 9
这种存储方式可能会使多个关键字共用一个地址，这种情况称为冲突（当key1≠key2，而H(key1) = H(key2)时，称发生了冲突，这时也称key1和key2是Hash函数H的同义词），这是不允许出现的。因此要做出一些处理来解决冲突，使得每个地址对应一个关键字。
解决冲突的一种可行的方法是从冲突发生的地址d（H(key)）开始，依次探测d的下一个地址（当达到下标为m-1的Hash表表尾时，下一个探查的地址是表首地址0），直到找到一个空闲单元为止，将关键字保存在这个位置上（HiH_iHi(key)）。一般冲突处理的过程是穿插在建表过程中的，即边建表边检测冲突，当发生冲突时立即解决冲突。
说明： H(key)是key的Hash地址，HiH_iHi(key)是key解决冲突后的地址，注意区分
加入冲突处理后的Hash表在进行查找时，先用Hash函数计算出一个地址，然后用key和这个地址上的关键字进行比较，如果当前地址为空，则查找失败；如果和当前地址上的关键字相同，则查找成功；如果不相同，则根据冲突处理方法到下一个地址继续比较，直到相同为止，证明查找成功；如果按照冲突处理方法寻找新地址的过程中又遇到空位置，则同样查找失败。

常用Hash函数的构造方法：

直接定址法
取关键字或关键字的某个线性函数为Hash地址，即H(key) = key或者H(key) = a*key+b，其中a和b为常数
数字分析法
假设关键字时r进制数，并且Hash表中可能出现的关键字都是实现知道的，则可选取关键字的若干数位组成Hash地址。选取的原则时使得到的Hash地址尽量减少冲突，即所选数位上的数字尽可能使随机的
平方取中法
取关键字平方后的中间几位作为Hash地址。通常在选定Hash函数时不一定能知道关键字的全部情况，仅取其中的几位为地址不一定合适，而一个数平方后的中间几位数和数的每一位都相关，由此得到的Hash地址的随机性更大，取的位数由表长决定
除留余数法
取关键字被某个不大于Hash表表长m的数p除后所得的余数为Hash地址，即H(key) = key Mod p（p≤m）
在本方法中，p的选择很重要，一般p选择小于或者等于表长的最大素数，这样可以减少冲突

常用的Hash冲突处理方法：

开放定址法
以发生冲突的Hash地址为自变量，通过某种冲突解决函数得到一个新的空闲的Hash地址的方法有很多种，下面举两种例子：
（1）线性探查法：是从发生冲突的地址（设为d）开始，依次探查d的下一个地址（当达到下标为m-1的Hash表表尾时，下一个探查的地址是表首地址0），直到找到一个空的位置为止，当m≥n（n是表中关键字的个数）时一定能找到一个空位置。线性探查法的递推公式为：
Hi(k)=(H(k)+i) Mod m(1≤i≤m−1) H_i(k) = (H(k)+i) ~~Mod~~m (1≤i≤m-1)Hi(k)=(H(k)+i)Modm(1≤i≤m−1)
线性探查法容易产生堆积问题。因为当连续出现若干同义词后，设第一个同义词占用单元d，这些连续的若干同义词将占用Hash表的d、d+1、d+2等单元上的Hash映射都会由于前面的同义词堆积而产生冲突，尽管所有的这些关键词并没有同义词
（2）平方探查法：设发生冲突的地址为d，则用平方探查法所得到的新的地址序列为d+1²，d-1²，d+2²，d-2²，…，平方探测法时一种较好的处理冲突的方法，可以减少堆积问题的出现。它的缺点是不能探查到Hash表上的所有单元，但至少能探查到一半的单元
（3）此外，开放定址法的探查方法还有伪随机序列法以及双Hash函数法（双Hash法即Hash地址为H(H(k))）
链地址法
链地址法是把所有的同义词用单链表连接起来的方法。在这种方法中，Hash表每个单元中存放的不再是记录本身，而是相应同义词单链表的表头指针。

散列表的性能分析

查找成功时的平均查找长度是指找到表中已有表项的平均比较次数，它是找到表中各个已有表项的平均比较次数。而查找不成功的平均查找长度是指在表中找不到待查的表项，但找到插入位置的平均比较次数，它是在表中所有可能散列到的地址上插入新元素时，为找到空位置而进行探查的平均次数。
Hash表的平均查找长度与关键字个数n无关，而与装填因子a有关。装填因子时关键字个数和表长度的比值。