跳到主要内容

AI 人工智能核心技术

机器学习基础

定义:机器学习(Machine Learning,简称 ML)是让计算机通过数据自动发现规律,并利用这些规律进行预测或决策的技术。

核心类型

  1. 监督学习(Supervised Learning)
    • 原理:通过带标签的数据(如“邮件内容+是否垃圾邮件”)训练模型。
    • 案例:房价预测(输入房屋面积、地段,输出价格)、人脸识别(输入图片,输出姓名)。
    • 常用算法:线性回归、决策树、支持向量机(SVM)。
  2. 无监督学习(Unsupervised Learning)
    • 原理:从未标注数据中发现隐藏模式(如用户分组、异常检测)。
    • 案例:电商用户聚类分析(将消费者分为“价格敏感型”“品牌忠诚型”等)。
    • 常用算法:K均值聚类(K-Means)、主成分分析(PCA)。
  3. 强化学习(Reinforcement Learning)
    • 原理:通过试错与环境交互(如游戏对局),根据奖励信号优化策略。
    • 案例:AlphaGo 的围棋策略、机器人行走控制。
    • 关键词:智能体(Agent)、奖励函数(Reward Function)。

神经网络与深度学习

神经网络基础

  • 神经元模型:模仿生物神经元,输入信号加权求和后通过激活函数(如 ReLU)输出。
  • 多层感知机(MLP):包含输入层、隐藏层、输出层的经典结构。

深度学习革命

  1. 卷积神经网络(CNN)
    • 特点:通过卷积核提取局部特征(如边缘、纹理),适合图像处理。
    • 经典模型:AlexNet(2012)、ResNet(2015)。
    • 应用:人脸识别、医学影像分析(如X光片病灶检测)。
  2. 循环神经网络(RNN)
    • 特点:引入时间维度记忆能力,适合序列数据(如文本、语音)。
    • 局限:长距离依赖处理困难 → 催生长短期记忆网络(LSTM)
  3. Transformer
    • 突破:通过自注意力机制(Self-Attention)并行处理全局关系,彻底改变自然语言处理。
    • 代表模型:BERT(理解文本)、GPT 系列(生成文本)。

自然语言处理(NLP)

核心技术栈

  1. 词向量(Word Embedding)
    • 目标:将词语映射为数值向量(如“国王 - 男人 + 女人 = 女王”)。
    • 工具:Word2Vec(2013)、GloVe(2014)。
  2. 语言模型(Language Model)
    • 任务:预测句子中下一个词的概率分布。
    • 进化:从 N-gram 统计模型 → RNN → Transformer → GPT-4(千亿参数)。
  3. 关键技术应用
    • 机器翻译:Google Translate基于Transformer实现多语言互译。
    • 情感分析:分析评论正负面情绪(如监测社交媒体舆情)。
    • 对话系统:ChatGPT 通过大规模预训练实现开放域对话。

计算机视觉(CV)

核心任务

  1. 图像分类(Image Classification)
    • 经典数据集:ImageNet(1400万标注图像,1000个类别)。
    • 工业应用:工厂质检(识别零件缺陷)、农业(病虫害检测)。
  2. 目标检测(Object Detection)
    • 技术难点:定位(Bounding Box)与分类同步进行。
    • 主流框架:YOLO(You Only Look Once)、Faster R-CNN。
  3. 图像生成(Image Generation)
    • 生成对抗网络(GAN):通过生成器与判别器对抗训练,创造逼真图像。
    • 扩散模型(Diffusion Model):Stable Diffusion 通过逐步去噪生成高清图片。