人工智能之大模型应用
第一章 人工智能演进与大模型兴起
文章目录
- 人工智能之大模型应用
- **1.1 人工智能演进与大模型兴起:从AI1.0到AI2.0的变迁**
- **1.1.1 什么是AI?**
- **1.1.2 AI1.0时代解析**
- **1.1.2.1 AI1.0的核心定义**
- **1.1.2.2 传统AI1.0代表产品**
- **1.1.2.3 AI1.0的局限性**
- **1.1.3 AI2.0时代解析**
- **1.1.3.1 AI2.0的核心定义**
- **1.1.3.2 AIGC现代AI代表应用**
- **1.1.3.3 AI2.0与AI1.0的核心区别**
- **1.2 大模型与通用人工智能(AGI)的关联**
- **1.2.1 大模型的核心定义**
- **1.2.2 通用人工智能(AGI)的核心定义**
- **1.2.3 常见的大模型对话产品**
- **1.2.4 大模型与通用人工智能的关系**
- **1.2.5 大模型的核心价值**
- **简单示例**
- 资料
1.1 人工智能演进与大模型兴起:从AI1.0到AI2.0的变迁
1.1.1 什么是AI?
核心定义:
人工智能(Artificial Intelligence, AI)是指由人类创造的系统所表现出的智能行为。其目标是让机器能够模拟、延伸和扩展人类的智能,完成诸如学习、推理、规划、感知、理解语言等复杂的认知任务。
核心特征:
- 学习能力 (Learning):能从数据或经验中获取知识并改进性能。
- 推理能力 (Reasoning):能运用逻辑规则从已知信息推导出新结论。
- 感知能力 (Perception):能通过传感器(如摄像头、麦克风)理解外部世界。
- 决策能力 (Decision-making):能在给定环境下选择最优或次优的行动方案。
发展核心逻辑:
AI的发展遵循一条清晰的路径:从“硬编码规则”走向“数据驱动学习”。早期AI依赖专家手动编写规则,而现代AI则通过海量数据训练模型,让模型自己发现规律,从而获得更强的泛化能力和适应性。
1.1.2 AI1.0时代解析
1.1.2.1 AI1.0的核心定义
AI1.0时代,也被称为“狭义人工智能”(Narrow AI)或“专用人工智能”(ANI)时代。其核心特点是规则驱动。开发者需要为每个特定任务精心设计算法和规则库。这种AI就像一个“死记硬背的专家”,只能在预设的、狭窄的领域内工作,一旦遇到规则之外的情况,就会失效。
1.1.2.2 传统AI1.0代表产品
- 语音助手(如早期Siri):它背后是一个庞大的关键词匹配规则库。当你问“今天天气怎么样?”,系统会识别关键词“天气”,然后调用预设的天气查询接口。但如果你问“我该穿什么出门?”,它就可能无法理解,因为这条规则未被编写。
- 简单推荐系统(如早期Amazon):采用“协同过滤”等简单算法,基于“买了A的人也买了B”的规则进行推荐。它无法理解商品的深层语义,也无法处理冷启动问题(新用户或新商品)。
- IBM深蓝(Deep Blue):这个下棋程序通过穷举和评估函数击败了国际象棋冠军。但它只会下棋,你问它任何其他问题,它都无法回答。
1.1.2.3 AI1.0的局限性
- 无法泛化:只能处理训练或编程时见过的特定模式,面对新情况束手无策。
- 依赖人工规则:开发成本极高,需要大量领域专家参与规则制定和维护。
- 无自主学习能力:系统性能不会随着时间自动提升,所有改进都依赖人工干预。
1.1.3 AI2.0时代解析
1.1.3.1 AI2.0的核心定义
AI2.0时代以大模型(尤其是大语言模型,LLM)为核心驱动力。其本质是数据驱动。通过在互联网级别的海量文本、图像、代码等数据上进行预训练,模型学习到了世界的基本知识和模式。这赋予了它强大的泛化能力和上下文学习(In-Context Learning)能力,使其能够理解和生成人类语言,并迁移到各种下游任务。
1.1.3.2 AIGC现代AI代表应用
- 文案生成:市场人员输入“为一款新的环保水杯写一篇小红书风格的推广文案”,AI能立刻生成符合平台调性的、有吸引力的文案。
- 图像生成:设计师输入“一幅赛博朋克风格的未来城市夜景,有霓虹灯和飞行汽车”,AI工具(如Midjourney)能生成高质量的概念图。
- 代码生成:程序员描述“用Python写一个函数,计算两个日期之间的天数差”,AI助手(如GitHub Copilot)能直接生成可运行的代码片段。
1.1.3.3 AI2.0与AI1.0的核心区别
| 特征 | AI1.0 (狭义AI) | AI2.0 (大模型驱动) |
|---|---|---|
| 驱动方式 | 规则驱动 (Rule-based) | 数据驱动 (Data-driven) |
| 智能来源 | 专家知识 | 海量数据中的统计规律 |
| 泛化能力 | 极弱,局限于特定任务 | 强,能跨任务、跨领域迁移 |
| 开发范式 | 为每个任务单独开发模型 | 预训练一个通用基座模型 + 微调/提示词 |
| 交互方式 | 固定指令集 | 自然语言对话 |
1.2 大模型与通用人工智能(AGI)的关联
1.2.1 大模型的核心定义
大模型(Large Model),特别是大语言模型(LLM),是指参数量达到数十亿甚至数千亿级别的深度神经网络。它们通过在超大规模数据集上进行自监督学习(如预测下一个词)完成预训练。其核心能力包括:
- 语言理解与生成:能流畅地阅读、写作和对话。
- 世界知识:在训练数据中吸收了大量的事实性知识。
- 上下文学习(Few-shot/Zero-shot Learning):仅通过几个例子或指令就能学会新任务。
1.2.2 通用人工智能(AGI)的核心定义
通用人工智能(Artificial General Intelligence, AGI)是AI领域的终极目标。它指的是具备与人类相当或超越人类的通用认知能力的智能体。AGI的核心特征包括:
- 通用能力:能像人类一样,在科学、艺术、社交、体力劳动等任何领域学习和工作。
- 自主决策:能独立设定目标、规划路径并执行,无需人类持续指导。
- 跨场景适配:能将在一个领域学到的知识灵活应用到完全陌生的领域。
1.2.3 常见的大模型对话产品
- **ChatGPT **(OpenAI):全球最知名的对话模型,以其强大的通用对话、写作和推理能力著称。GPT-4系列是其当前主力。
- **文心一言 **(百度):中国领先的大模型产品,深度集成于百度生态,在中文理解和生成、以及与国内应用场景(如搜索、办公)结合方面有优势。
- **Claude **(Anthropic):强调安全性和“无害性”,在长文本处理和复杂推理任务上表现优异。
1.2.4 大模型与通用人工智能的关系
可以将大模型看作是通往AGI道路上的关键里程碑和核心载体。大模型展现出了前所未有的通用性和涌现能力,让我们第一次看到了AGI的雏形。然而,当前的大模型仍然缺乏真正的因果推理、自我意识、长期规划和物理世界交互能力,因此距离真正的AGI还有很长的路要走。AGI是大模型发展的终极目标。
1.2.5 大模型的核心价值
- 降低AI使用门槛:通过自然语言交互,让非技术人员也能利用AI解决问题。
- 提升生产效率:自动化内容创作、编程、客服等重复性脑力劳动。
- 推动行业革新:在教育、医疗、金融、科研等领域催生全新的工作流和商业模式。
简单示例
下面是一个简单的Python代码示例,展示了如何使用Hugging Face的transformers库加载一个开源的轻量级大模型(如gpt2)来进行文本生成。这体现了AI2.0“一个模型,多种用途”的核心思想。
# 首先,你需要安装 transformers 和 torch 库# pip install transformers torchfromtransformersimportAutoTokenizer,AutoModelForCausalLM# 1. 加载预训练的分词器和模型# 这里以GPT-2为例,它是大模型家族中的一个经典成员model_name="gpt2"tokenizer=AutoTokenizer.from_pretrained(model_name)model=AutoModelForCausalLM.from_pretrained(model_name)# 2. 准备输入提示(Prompt)# 这就是AI2.0时代的“编程”方式——用自然语言描述任务prompt="人工智能的未来是"# 3. 对输入进行编码input_ids=tokenizer.encode(prompt,return_tensors='pt')# 4. 使用模型生成文本# max_length 控制生成文本的总长度output=model.generate(input_ids,max_length=50,num_return_sequences=1,do_sample=True,# 启用随机采样,使输出更多样temperature=0.7# 控制生成的随机性,值越高越随机)# 5. 解码并打印结果generated_text=tokenizer.decode(output[0],skip_special_tokens=True)print("生成的文本:")print(generated_text)说明:
这段代码没有为“预测未来”这个任务编写任何特定规则。它只是加载了一个在海量文本上预训练好的通用模型,并给了它一个开头。模型凭借其在预训练中学到的世界知识和语言模式,自动完成了续写。这正是AI2.0与AI1.0的根本区别所在。
资料
咚咚王
《Python 编程:从入门到实践》
《利用 Python 进行数据分析》
《算法导论中文第三版》
《概率论与数理统计(第四版) (盛骤) 》
《程序员的数学》
《线性代数应该这样学第 3 版》
《微积分和数学分析引论》
《(西瓜书)周志华-机器学习》
《TensorFlow 机器学习实战指南》
《Sklearn 与 TensorFlow 机器学习实用指南》
《模式识别(第四版)》
《深度学习 deep learning》伊恩·古德费洛著 花书
《Python 深度学习第二版(中文版)【纯文本】 (登封大数据 (Francois Choliet)) (Z-Library)》
《深入浅出神经网络与深度学习 +(迈克尔·尼尔森(Michael+Nielsen)》
《自然语言处理综论 第 2 版》
《Natural-Language-Processing-with-PyTorch》
《计算机视觉-算法与应用(中文版)》
《Learning OpenCV 4》
《AIGC:智能创作时代》杜雨 +&+ 张孜铭
《AIGC 原理与实践:零基础学大语言模型、扩散模型和多模态模型》
《从零构建大语言模型(中文版)》
《实战 AI 大模型》
《AI 3.0》