对DeepSeek-V4在金融文本上的处理能力进行全方位评测,使用 CFLUE 测试集对各模型能力进行评测,CFLUE是一个开源的测评基准,由阿里云与苏州大 学联合构建,其中金融应用评估数据集包括125道应用类样题目,囊括文本分类、机器翻 译、关系抽取、阅读理解与文本生成五类典型任务。具体细分项目如下:
得分方式的计算上,知识评估以准确率(ACC)与F1得分为主;应用评估中,对于有正确答案的分类与抽取问题,主要采用ACC与F1得分计算;对于文本生成、阅读理解类题目,主要采用Bert、Rouge等方法计算模型回答与标准答案之间的相似度。其中Bert模型从模型回答的语义相似度计算得分,Rouge则从两者重复的文段比例角度计算。翻译类题目采用BLEU方法,类似于计算词汇的重复比例。
来源:国金证券