- 什么是自然语言处理(NLP)?
让计算机理解、生成、处理人类语言(文本或语音)。
NLP是AI最难的任务之一,因为语言充满歧义、上下文依赖、文化背景。
🗣️ 示例:“苹果很好吃” vs “苹果发布了新手机”
同一个词“苹果”,意思完全不同。人类靠常识区分,机器则需要大量数据和巧妙模型。
- NLP的典型任务
层次 任务 说明
基础 分词、词性标注、命名实体识别 把句子拆成词,标出名、动、地名人名
中级 情感分析、文本分类 判断评论是好评还是差评
高级 机器翻译、问答系统、文本摘要 英译中、自动回答、长文概括
前沿 对话系统、代码生成、故事创作 ChatGPT类应用 - 词向量:把文字变成数学
计算机不认识“国王”,但可以把它表示成向量。
Word2Vec的核心思想:一个词的语义由它的上下文决定。
“你__他” → 空格处可以是“爱”“恨”“认识”,不会是“桌子”。
训练后,“国王”-“男人”+“女人”≈“女王”
向量空间中的距离反映语义相似度。
importgensim.downloaderasapi wv=api