news 2026/2/22 18:05:20

2024《Three-way clustering: Foundations, survey and challenges》

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
2024《Three-way clustering: Foundations, survey and challenges》

一、研究动机与核心思想

传统聚类(称为两路聚类,Two-way Clustering, 2W)将每个样本明确划归为“属于”或“不属于”某个簇,本质上假设簇边界清晰、决策二元。然而,在现实世界中,大量数据存在不确定性(如缺失值、噪声、模糊边界、样本歧义等),强行做二元归属容易导致高风险误判

为此,受三支决策(Three-way Decision, 3WD)理论启发,三路聚类(Three-way Clustering, 3W)被提出:

每个簇由“核心区域”(core)

  • 核心区域(Co):明确属于该簇的样本;
  • 边缘区域(fringe):不确定是否属于该簇的样本(部分归属);
  • 平凡区域(trivial):明确不属于该簇的样本。

这种划分不仅更贴合人类认知中的“延迟判断”机制,也显式建模了聚类过程中的不确定性,从而降低决策风险、提升鲁棒性


二、系统性分类框架

作者将现有 3W 聚类方法分为三大类,逻辑清晰:

  1. 胚胎型 3W 聚类(Embryonic Form)
    指在 3W 概念正式提出前,已蕴含三区域思想的早期方法:

    • 粗糙集聚类(Rough Clustering):用上下近似集刻画簇;
    • 区间集聚力(Interval Set Clustering):用上下界定义簇;
    • 影子集聚类(Shadowed Set Clustering):用核心与影子区域表示不确定性。
      局限:部分方法允许空核心,或未完全满足 3W 聚类的公理化定义。
  2. 基于评估函数的 3W 聚类(Evaluation-based)
    核心思想:设计一个评估函数( f(x_i, C_t) ) 衡量样本 (x_i) 与簇 (C_t) 的关联强度,并通过一对阈值((\alpha, \beta)) 划分三区域:

    • ( f \geq \alpha ) → 核心;
    • ( \beta < f < \alpha ) → 边缘;
    • ( f \leq \beta ) → 平凡。
      代表性工作
    • 3W-k-means、3W-DBSCAN、3W-谱聚类、3W-密度峰值聚类;
    • 针对缺失数据、多视图数据、不均衡学习等场景的扩展。
      挑战:阈值通常需人工设定,对结果敏感。
  3. 基于算子的 3W 聚类(Operator-based)
    不依赖阈值,而是通过数学或图像处理算子直接生成三区域:

    • CE3(基于数学形态学):用“收缩”(erosion)得核心,“膨胀”(dilation)得支撑集;
    • RE3WC(基于空间滤波):用最小/最大滤波实现收缩/膨胀;
    • 图像模糊-锐化法:模糊得核心,原图减模糊得边缘。
      优势:避免阈值选择,更具自适应性。

此外,文章还梳理了:

  • 自适应 3W 聚类:动态调整阈值(如基于引力、遗传算法、邻域稳定性);
  • 集成 3W 聚类:融合多个基聚类结果生成稳健三区域。

三、应用与挑战

应用领域
  • 机器学习:特征选择、属性约简、主动学习(利用边缘样本指导标注);
  • 多视图学习:用 3W 处理视图间不一致性;
  • 医疗诊断:识别高风险与不确定病例;
  • 概念格简化群体决策区间预测等。
核心挑战与未来方向
  1. 算法层面

    • 如何将经典 2W 算法(如 GMM、层次聚类)系统性转化为 3W;
    • 开发无需预设簇数的 3W 算法;
    • 探索基于非标准集合论(如直觉模糊集、粗糙模糊集)的 3W 模型。
  2. 评估层面

    • 缺乏专门的 3W 聚类评估指标。现有指标(如 ACC、NMI、Silhouette)仅适用于硬聚类,无法衡量“边缘区域”的质量;
    • 未来需设计双指标体系(如分别评估核心与边缘),或引入风险-收益权衡度量。
  3. 应用层面

    • 拓展至图聚类流数据聚类深度 3W 聚类等前沿场景;
    • 安全关键领域(如医疗、金融)验证其“降低误判风险”的实际价值。

四、总结评价

本文是三路聚类领域首篇系统性综述,具有以下突出贡献:

  • 首次形式化定义 3W 聚类的数学框架,厘清其与 2W 聚类的本质区别;
  • 提出清晰的三分类体系,涵盖从理论雏形到现代自适应方法;
  • 通过文献计量分析(2013–2023),揭示领域发展脉络与研究热点;
  • 明确指出评估指标缺失这一关键瓶颈,为后续研究指明方向。

该文不仅为研究者提供了方法选型与设计的路线图,更强调了“不确定性建模”在无监督学习中的重要性,对推动聚类从“确定性决策”向“风险感知决策”演进具有深远意义。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/17 3:40:59

如果早点知道这 7 个 Mac 神器,我的早晨至少能少崩溃一半

我有一支技术全面、经验丰富的小型团队&#xff0c;专注高效交付中等规模外包项目&#xff0c;有需要外包项目的可以联系我我每天在 Mac 上待的时间&#xff0c;坦白说有点不健康。 早上睁眼第一件事不是刷牙&#xff0c;是开电脑——我的生活像是住在 Finder 里。所以每次我发…

作者头像 李华
网站建设 2026/2/16 11:55:16

LangFlow儿童教育互动程序设计范例

LangFlow儿童教育互动程序设计范例 在一所普通小学的课后教室里&#xff0c;一位语文老师正用平板电脑为一群六岁孩子播放一个关于“小熊找蜂蜜”的故事。情节生动、语言简单&#xff0c;还配有手绘风格的插图和温柔的语音朗读。孩子们听得入神——但他们不知道&#xff0c;这个…

作者头像 李华
网站建设 2026/2/21 16:43:42

定向广播技术重塑高速公路管理新范式:从“大喇叭”到“声波聚焦”的时代跨越

定向广播扬声器凭借强指向性、高声压穿透、低环境干扰等核心优势&#xff0c;在高速公路的应急处置、安全预警、交通疏导等场景中发挥关键作用&#xff0c;可精准向目标区域 / 车辆传递信息&#xff0c;提升通行安全与管理效率。核心应用场景与价值应急事件快速处置事故 / 故障…

作者头像 李华
网站建设 2026/2/20 10:20:49

LangFlow JSON解析器节点应用实例:提取结构化结果

LangFlow JSON解析器节点应用实例&#xff1a;提取结构化结果 在构建基于大语言模型&#xff08;LLM&#xff09;的应用时&#xff0c;一个常见但棘手的问题浮出水面&#xff1a;如何让AI“说人话”的同时&#xff0c;还能“写机器能读的格式”&#xff1f; 设想这样一个场景&a…

作者头像 李华
网站建设 2026/2/17 18:09:11

基于IAR安装的实时控制程序部署:项目应用

从零开始搭建高效嵌入式开发环境&#xff1a;IAR实战部署与实时控制工程全解析 你有没有遇到过这样的场景&#xff1f;项目紧急上线&#xff0c;代码写完了&#xff0c;却卡在“编译失败”上——提示找不到芯片定义、链接脚本报错、调试器连不上目标板……最后排查半天&#x…

作者头像 李华
网站建设 2026/2/20 7:24:06

Arduino创意作品全面讲解:基于Uno的电子骰子

用Arduino Uno打造一个会“摇”的电子骰子&#xff1a;从零开始的完整实践你有没有想过&#xff0c;只用几颗LED、一个按钮和一块Arduino Uno&#xff0c;就能做出一个能“掷”出随机点数的电子骰子&#xff1f;听起来像玩具&#xff0c;但背后却藏着嵌入式开发的核心逻辑——输…

作者头像 李华