MATLAB实现：IsoP等距投影降维算法详解-洪萨配资

在非线性降维领域，Isomap通过测地距离成功捕捉了数据的全局几何结构，但它属于无监督方法，无法利用标签信息。IsoP（Isometric Projection，等距投影）正是对Isomap的有监督扩展，它在构建邻接图和测地距离时融入类别标签，使得同类样本间的测地距离更小、异类样本间的距离更大，从而在低维嵌入空间中实现更好的类间分离。

今天要介绍的IsoP函数，就是IsoP算法的核心MATLAB实现。它支持纯无监督（KNN模式）和有监督（Supervised模式）两种邻接图构建方式，最终通过线性图嵌入框架（LGE）求解投影矩阵，实现从高维到低维的线性等距投影。

算法核心思想

IsoP 的关键创新在于有监督测地距离的构造：

在无监督模式下，与经典Isomap完全一致：使用k近邻构建图，Dijkstra计算最短路径作为测地距离。
在有监督模式下：
- 当 k=0 时，仅在同类样本间连接，形成类内子图。
- 当 k>0 时，在每个类内独立构建k近邻子图，再计算类内测地距离。
- 异类样本间距离设为极大值。

这样得到的测地距离矩阵 D 天然满足：同类样本测地距离小，异类样本测地距离大。随后对 D² 进行经典MDS双中心化，得到内积矩阵 TauDg，最后调用LGE求解广义特征值问题，获得线性投影方向。

相比Isomap，IsoP 在有标签数据上能产生更具判别性的低维嵌入，非常适合后续分类任务。

函数接口与参数

[eigvector,eigvalue]=IsoP(options,data)

data：n×d 数据矩阵，每行一个样本
options：结构体，关键字段：
- NeighborMode：‘KNN’（默认，无监督）或 ‘Supervised’（有监督）
- k：近邻数（默认5）
  - 在Supervised模式下，k=0 表示仅同类连接
- gnd：样本标签向量（列向量，仅Supervised模式需要）
- 其他LGE相关选项（如ReducedDim、ReguAlpha等）

输出：

eigvector：d×ReducedDim 投影矩阵，新样本 x 的嵌入为 x * eigvector
eigvalue：对应的特征值（从小到大排序，已去除数值噪声）

核心实现亮点解析

1. 灵活的有监督邻接图构建

函数根据NeighborMode和k值分三种情况处理测地距离矩阵 D：

纯KNN模式：与Isomap一致，全局k近邻 + Dijkstra
Supervised k=0：每个类别内部计算欧氏距离作为测地距离，类间设为INF
Supervised k>0：每个类别内部独立构建k近邻子图 + Dijkstra计算类内测地距离，类间设为INF

这种分而治之的策略既保证了类内几何结构的准确捕捉，又避免了跨类边的干扰。

2. 高效测地距离计算

使用稀疏矩阵 +dijkstra函数计算最短路径
对不连通部分统一设为极大值 INF，避免中心化出错
内存友好，适合数千样本规模

3. 经典MDS中心化

与Isomap相同，对距离平方矩阵进行双中心化：

TauDg=-0.5*(S-H-H'+mean_mean_term)

得到近似的内积矩阵，用于后续线性嵌入。

4. 可选均值中心化

默认对原始数据减去均值（与PCA一致），提升数值稳定性。可通过options.keepMean = true关闭。

5. 统一调用LGE求解

将构造好的TauDg作为图嵌入的权重矩阵，调用通用线性图嵌入函数LGE求解投影方向，支持正则化、维度选择等扩展。

6. 数值清理

去除特征值小于1e-3的噪声方向，确保输出干净可靠。

使用场景与优势

优势：
- 结合Isomap的全局几何保持与监督信息的判别性
- 输出线性投影矩阵，可直接用于新样本（外样本友好）
- 支持从完全监督（k=0）到半监督的平滑过渡
适用场景：
- 有标签的高维流形数据降维
- 人脸、手写数字等经典数据集的判别嵌入
- 作为分类器的预处理步骤

完整代码（仅含中文功能注释）

function[eigvector,eigvalue]=IsoP(options,data)% IsoP 等距投影降维算法实现% 支持无监督KNN和有监督邻接图构建，输出线性投影矩阵% 输入：% options - 参数结构体% .NeighborMode : 'KNN'(默认) 或 'Supervised'% .k : 近邻数量（默认5），Supervised模式下k=0表示仅同类连接% .gnd : 样本标签向量（Supervised模式必需）% 其他LGE相关选项% data - n×d 数据矩阵，每行为一个样本% 输出：% eigvector - d×ReducedDim 投影矩阵，新样本嵌入为 x * eigvector% eigvalue - 对应特征值（从小到大排序）INFratio=1000;% 无限大距离倍数if(~exist('options','var'))options=[];endif~isfield(options,'NeighborMode')options.NeighborMode='KNN';endif~isfield(options,'k')options.k=5;endnSmp=size(data,1);ifoptions.k>=nSmperror('k 值过大，不能超过样本数！');end% 有监督模式：k <= 0 时强制使用标签ifoptions.k<=0if~isfield(options,'gnd')error('Supervised模式下必须提供gnd标签！');endiflength(options.gnd)~=nSmperror('gnd长度与样本数不匹配！');endLabel=unique(options.gnd);nLabel=length(Label);G=zeros(nSmp,nSmp);fori=1:nLabel classIdx=find(options.gnd==Label(i));D_class=EuDist2(data(classIdx,:),[],1);G(classIdx,classIdx)=D_class;endmaxD=max(max(G));INF=maxD*INFratio;D=INF*ones(nSmp,nSmp);fori=1:nLabel classIdx=find(options.gnd==Label(i));D(classIdx,classIdx)=G(classIdx,classIdx);endclear G;else% k > 0 情况ifstrcmpi(options.NeighborMode,'KNN')% 无监督KNN模式D=EuDist2(data);maxD=max(max(D));INF=maxD*INFratio;[dump,iidx]=sort(D,2);iidx=iidx(:,(2+options.k):end);fori=1:nSmpD(i,iidx(i,:))=0;endD=max(D,D');D=sparse(D);D=dijkstra(D,1:nSmp);D=reshape(D,nSmp*nSmp,1);infIdx=find(D==inf);if~isempty(infIdx)D(infIdx)=INF;endD=reshape(D,nSmp,nSmp);elseifstrcmpi(options.NeighborMode,'Supervised')% 有监督k>0模式：每个类内独立构建k近邻图if~isfield(options,'gnd')error('Supervised模式下必须提供gnd标签！');endiflength(options.gnd)~=nSmperror('gnd长度与样本数不匹配！');endLabel=unique(options.gnd);nLabel=length(Label);G=zeros(nSmp,nSmp);maxD=0;foridx=1:nLabel classIdx=find(options.gnd==Label(idx));nSmpClass=length(classIdx);D_class=EuDist2(data(classIdx,:),[],1);ifmaxD<max(max(D_class))maxD=max(max(D_class));endifoptions.k>=nSmpClassG(classIdx,classIdx)=D_class;else[dump,iidx]=sort(D_class,2);iidx=iidx(:,(2+options.k):end);fori=1:nSmpClassD_class(i,iidx(i,:))=0;endD_class=max(D_class,D_class');D_class=sparse(D_class);D_class=dijkstra(D_class,1:nSmpClass);G(classIdx,classIdx)=D_class;endendINF=maxD*INFratio;D=INF*ones(nSmp,nSmp);fori=1:nLabel classIdx=find(options.gnd==Label(i));D(classIdx,classIdx)=G(classIdx,classIdx);endclear G;elseerror('NeighborMode 参数无效！');endend% Classical MDS 双中心化S=D.^2;sumS=sum(S);H=sumS'*ones(1,nSmp)/nSmp;TauDg=-0.5*(S-H-H'+sum(sumS)/(nSmp^2));TauDg=max(TauDg,TauDg');% 保证对称% 可选：数据中心化（默认开启）ifisfield(options,'keepMean')&&options.keepMeanelseifissparse(data)data=full(data);endsampleMean=mean(data);data=data-repmat(sampleMean,nSmp,1);end% 调用LGE求解线性图嵌入投影[eigvector,eigvalue]=LGE(TauDg,[],options,data);% 去除数值噪声小的特征值/向量eigIdx=find(eigvalue<1e-3);eigvalue(eigIdx)=[];eigvector(:,eigIdx)=[];end