一句话概括:AI 模型就是靠「学海量数据规律」→「记住模式」→「对新问题做预测 / 判断」,本质是模仿人类学习和推理。
把现实信息转成机器能懂的数字 / 向量:
AI 模型是多层数学函数网络(***常见是神经网络):
用海量数据反复做三件事:
输入数据让模型给出预测结果;
对比预测和真实答案,算出误差(损失);
反向微调模型里的权重参数,减小误差。
反复迭代几十万、几百万次后,模型就学到了数据里的隐藏规律(比如猫长什么样、语法规则、下棋套路)。
训练完成后固定参数,输入从没见过的新数据:模型用学到的规律,直接算出答案、分类、生成内容。
不是真的 “懂”:AI 没有意识、没有理解,只是拟合数据里的统计规律;
靠参数存知识:模型的知识全存在海量权重参数里;
泛化能力:见过大量样本后,能举一反三处理新情况。
喂给模型几万张猫狗图片 + 标注;
训练中不断调整参数,学会猫、狗的轮廓、毛色、五官特征;
给一张新照片,模型按学到的特征匹配判断:是猫还是狗。
额外多了预训练 + 上下文理解 + 注意力机制:
常用的AI模型有哪些?
按用途分成 5 大类,每类给你***常用、***典型的模型:
适合:表格数据、预测、分类、风控、推荐
线性回归:做数值预测(房价、销量)
逻辑回归:二分类(是否违约、是否点击)
决策树 / 随机森林:规则判断、抗干扰强
XGBoost / LightGBM:比赛、企业数据分析***常用
SVM 支持向量机:小样本分类
适合:识图、人脸识别、安防、自动驾驶
CNN 卷积神经网络:视觉基础模型
ResNet:图像分类标配
YOLO:目标检测(找画面里人、车、物体)
U-Net:图像分割(抠图、医疗影像)
ViT 视觉 Transformer:现在高端识图主流
适合:聊天、写作、翻译、文案、客服
Transformer:所有大模型的底层基础
BERT:理解类任务(分词、情感分析、问答)
GPT 系列:生成式大模型(写文案、对话、编程)
LLaMA、Qwen 通义千问、文心一言:国产开源 / 商用大模型
RNN/LSTM:老式文本时序模型(现在用得少了)
适合:AI 绘画、视频生成、配音
Diffusion 扩散模型:AI 绘画主流(Midjourney、Stable Diffusion 底层)
GAN 生成对抗网络:早期换脸、图像生成
Sora、Runway:文生视频模型
适合:股票预测、机器人、游戏 AI、自动驾驶决策
LSTM/GRU:时间序列预测(股价、流量)
强化学习 RL:AlphaGo、机器人控制、游戏 AI
做表格数据分析:XGBoost、随机森林
看图片识物体:YOLO、ResNet
聊天写文案:GPT、Qwen、LLaMA
AI 画画:Diffusion 扩散模型