传统的人格测试依赖量表,需受试者的自我填写,易受主观偏差影响、耗时费力。而基于视觉人工智能的个体心理识别基本上停留在对情绪、表情、动作等外在观测指标的识别。基于短暂视频图像的人格识别在行业内极难实现,使用行业内顶尖的大模型,其准确率在40%左右,无法业务应用。
连信以视觉为切入点,融合人工智能与心理学的前沿研究,实现重大突破:创新打造两种基于计算机视觉挖掘与大模型分析的“去量表化”人格识别方案——CMA-ViT 特征挖掘小模型 (Cross-Modal Attention Vision Transformer) V1.0与STOR大模型人格识别(Scale to Observable Representations-RAG-Pipeline)V3.5,其准确率均已稳定超过70%。其中,在公开数据集上,STOR大模型人格识别V3.5整体准确率达70%,远超其他视觉大模型的水平。
这一里程碑式的成果不仅标志着连信在人格视觉计算领域已稳居国内领先水平,更将曾仅存于科幻电影中的“视觉读心”场景变为现实,引领行业进入人格智能识别新时代。
|CV挖掘+大模型分析“双引擎”
①CMA-ViT 特征挖掘小模型 (Cross-Modal Attention Vision Transformer) V1.0
基于剑桥大学在2022年发表在权威期刊《IEEE Transactions on Affective Computing》的前沿理论,我们研发了创新的CNN+Transformer-encoder(卷积神经网络与视觉编码)视觉融合模型,专注于捕捉个体的外显视觉特征。在复杂的“五人格三程度”分类任务中,CMA-ViT 特征挖掘小模型 (Cross-Modal Attention Vision Transformer) V1.0准确率稳定大于70%,展现出卓越的视觉识别能力。
核心技术创新:
外显视觉特征提取:基于主流外显视觉特征的方法,自研高阶微表情提取技术,从面部细微动态中捕捉深层人格线索。
时序特征建模:利用TimeSformer构建时空注意力机制,精准捕捉10秒内32帧的连续动态,让短暂的情绪无所遁形。
多尺度特征融合:通过跨模态架构与Cross-Attention机制,实现动态视频与静态图像特征的深度交互与融合。
CMA-ViT 特征挖掘小模型 (Cross-Modal Attention Vision Transformer) V1.0核心在于通过自研的高阶微表情提取技术与时空注意力机制,能够从面部细微、瞬时的动态中,解读出隐藏在背后的稳定人格特质。对非语言行为的精准感知与量化,让机器能够“看见”人格。
②STOR大模型人格识别(Scale to Observable Representations-RAG-Pipeline)V3.5
该方案采用“去量表化但非去理论化”的核心理念,将传统大五人格量表中的抽象心理构念,转化为可通过多模态观测的具体行为指标,并结合检索增强生成(RAG)技术,让大模型能够实现动态、可解释的人格评估。
核心技术优势:
检索增强生成(RAG)技术:让大模型的每一项判断都可追溯的、坚实的理论依据,从“黑箱预测”走向 “可解释推理” ,评估结果透明、可信。
高效客观:全程无需受试者自评,几分钟内通过多模态行为自动分析完成评估,摆脱传统量表的繁琐限制,有效降低社会赞许性偏差与自我认知的局限性。
性能卓越:在公开数据集上,该方案整体准确率达70%,远超直接使用通用大模型(40%准确率)的效果,同时重测信度高达0.9(即相同数据重新多次测试,结果一致性比例高达90%),实现了精度与可信度的双重飞跃。
|技术性能对比
基于公开数据集的各项对比显示,我们的“双引擎”方案在准确率、信度和可解释性方面均表现优异:
|此图为连信原创 请勿私自转载
|此图为连信原创 请勿私自转载
可解释性:与其他大模型相比,我们大模型人格识别提供更详细、可追溯的评分依据,让每一项判断都有坚实的理论支撑。
|此图为连信原创 请勿私自转载
|赋能千行百业
这一技术架构的成功,直接催生了评估模式上的革命性进步——“去量表化”评估,这为实际应用带来了效率与场景的双重颠覆。其科学性、客观性、高效性与可解释性,为多个行业实际应用带来了革命性的解决方案:
Ø 招聘筛选:帮助企业快速识别与岗位最匹配的候选人特质
Ø 教育干预:无感识别学生性格特质,为因材施教提供即时数据支持
Ø 心理咨询:为咨询师提供客观、量化的初步评估参考
Ø 司法评估 & 人机交互:在需要快速、客观评估人格特质的各种前沿场景中,发挥关键作用
我们正将人格评估从一份需要精心填写的“试卷”,转变为一个可以被自然“感知”和科学“解读”的日常过程,真正让精准的心理学洞察,高效、可信地赋能于千行百业。