某水泥厂由于部分资深技术的老员工接近退休年龄,加上科技进步,因此高层管理,计划部署自己的AI大模型,并将现场的工人经验记录下来;这也促使了AI大模型,在水泥行业的落地和应用,因此笔者简单介绍一下AI大模型的相关知识。
大模型的发展历史概要
人工智能在1950年就已经提出了,后来演变出来机器学习,然后再演变为深度学习,包括大家熟悉的chatGPT, deepseek 等,都属于深度学习;
人工智能–>机器学习–>深度学习–>chatGPT/DeepSeek AI大模型;
根据深度学习原理,又可以分为:
监督学习&无监督学习&深化学习–>深度学习–>生成式AI(LLM);
监督学习就是给模型系统一些特定条件的信息标签输入,让系统记住这些特定条件,然后归纳成具体的目的;比如说,肚子饿了,这是条件,肚子饿了后要吃东西,这就是目的;
无监督学习就是将杂乱的输入的信息标签,自主进行归纳整理分类,然后生成对应的目的和条件,比如肚子饿了,困了,渴了等条件,系统对应的是吃东西、睡觉、喝水等;
另外还有强化学习,强化学习是蛮重要的,主要是连续性做出决策,生成目的;
深度学习就是上述综合类的学习算法啦,基于大量数据的学习,自动提出数据的高层特征,从而实现图像识别、语音识别、语言处理等功能,有点类似于PLC的runtime对PLC的编程语言的编译等,但远比这个要复杂;
深度学习由于架构不同,又有其他的分类,如卷积神经网络CNNS,循环神经网络RNNS,Transformer网络等;
笔者注意到,现在AI的各类提供商,都在聚焦于AI大模型的应用如RAG, agent等方面;
目前我们使用的deepseek, chatGPT等,所实现的自然文本语言交互的原理,都如下图所示:
首先对外部文档进行预处理 ,并使用模型进行向量化编码,存储在向量数据库中。当用户输人提示词时,经过相同的模型进行向量化编码 ,通过计算与数据库 中的向量的内积,找出最相关的文档片段 ,与用户输人提示词合并输人到大语言模型中,模型生成文本结果
大模型是如何训练出来的
这个问题大家可能都很好奇,因为我们在用各种大模型的时候,尤其是deepseek, chatGPT, 用户会通过一个文字输入框,输入相关的问题,等待大模型回答,然后大模型经过一定时间的思考后,会给出相关的问题回复。使用起来非常简单;
但是,这里请注意: 有时候当我们提问时候,特别是比较专业的技术问题,大模型的回复并不会让大家很满意,甚至会答非所问或者胡编乱造。有时候大家提问的问题,只要改几个字,或者顺序颠倒一下,AI大模型就会有截然不同的回答。
这是为什么呢,是因为我们提问的方式不对? 是因为我们对问题的描述不对吗?如何让AI大模型的回复更加高效和准确呢?
这里就牵扯到AI大模型非常重要的一个环节,就是提示工程的建立。在AI大模型里面,如何提问问题,有一个专业名词: 提示词工程。
大模型的训练总体分为3个阶段:
1.预训练:类似于监督学习,培养AI的通用逻辑思维;
2.SFT(监督微调):对特定的技术方向/课题,进行精华训练和学习;
3.RLHF(基于人类反馈的强化学习): 针对特定问题的多级信息收集和综合分析与反馈;
预训练就不多说了,可以说下SFT微调,这里是针对特定行业的问题训练,如水泥厂的水料比调整,PID算法工艺等,已有问题的经验训练和数据归纳; 同时也可以实现无关联数据的屏蔽和恶意数据的拒绝,如笔者之前对PLC的AI大模型提问题: 别人欠我钱不还怎么办; PLC的AI 对此问题没拒绝回复。这个功能,可在这个阶段实现。甚至一些非法词语,都可以在这里进行拦截。
RLHF呢,用于指导大模型的训练过程,增强大模型对人类意图的理解和满意程度,更自然地与人类进行交互,生成更符合人类期望的输出。
AI大模型的搭建
目前很多厂商选择用成熟的Dify+DeepSeek的方案,来实现自主AI大模型工具。那么这里可能有些读者朋友比较好奇,Dify、DeepSeek,vLLM 之间是什么关系呢,笔者这里用一个图标来表示器相关信息:
大家可以看到,DeepSeek 可以作为相应的大语言模型的大脑,vLLM是框架引擎,Dify 可作为AI的应用层,然后再针对RAG 、agent等进行训练, 下图是笔者自己用visio 画的一个架构图,供参考:
AI大模型对工业系统的发展方向:
工业的应用环境复杂多样、运行环境不断变化,所需要的设备种类又特别多,如模型无法可靠适应新场景,将出现预测不准或决策失误的情况。工业 AI 大模型需具有自主学习能力,以持续适应大型工控系统的维护和升级,确保实际应用的适应性。未来的技术发展方向是:发展持续学习技术,实现和优化增量学习,使AI大模型接收到新的数据时,仅需对增加或者新配置的部分参数进行微调,无需重新训练整个模型(类似PLC的增量下载),因此更好适应设备和环境的变化;应用RLHF 进行与人类、环境的交互,使模型能够自我调整,逐步优化应用性能,提高对设备和工控系统变化的适应能力。
另外,目前国内的部分AI大模型,基本上都是自然语言的训练、学习、交互。 尽管现在自然语言的模型已经很好了,对此笔者不是特别的满意,还是建议相关厂商往多模态大模型的方向上发力,将工控系统的文字、图片、视频等数据整体结合训练,增强大模型对图片和语义的关联,对现场的问题能够输出图片或者视频的解决方案。
谈一下国内的AI 大模型的供应链吧:
就笔者自己试用和分析过的,PLC集成的AI大模型工具,如宝信软件的天行PLC, 中科曙光的SugonRI 2.0 自研PLC , 集成的AI大模型都不错。宝信的天行PLC 主要应用钢铁行业和其他过程控制行业,中科曙光的SugonRI 自研PLC 主要用在 电力行业和机器人行业,两者各有特色,AI功能都做的不错。
硬件方面: 国外有英伟达,国内有寒武纪、摩尔线程等公司,做的都很好,国内这两家也已经上市,支持国产GPU芯片在AI行业的应用; 另外国内还有一家芯片公司值得关注: 云脉芯联。 这是一家做DPU国产芯片的公司,DPU芯片在AI行业也是大规模的应用,我们也祝愿其发展得越来越好。
学AI大模型的正确顺序,千万不要搞错了
🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!
有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!
就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋
📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇
学习路线:
✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经
以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!
我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~