Appearance
AI 新人入门热词扫盲
本文面向AI社区的新入行的小伙伴,帮你快速理解AI领域最常出现的概念。
一、基础模型与结构
LLM(Large Language Model,大语言模型)
读了海量文本的大脑,能理解语言、写作、聊天、编程。ChatGPT、Claude、Gemini、DeepSeek等都是基于它构建的。Transformer
这是现代AI模型的基础架构,擅长捕捉上下文信息。就像人读文章时,一边理解内容、一边记得前后逻辑。
MoE(Mixture of Experts,专家混合)
模型里住着多个“专家模块”,AI会根据问题只激活最合适的那一个。相当于你提问时,它去请最懂行的人出主意。Multimodal(多模态)
能同时理解文字、图片、音频、视频等多种信息形式。换句话说,AI不只会说,还能看、能听、能分析。Vision-Language Model(视觉语言模型)
结合图像识别与语言理解的模型。比如你上传一张图,它能告诉你“这是谁、在干嘛”,甚至续写一段故事。Reasoning Model(推理模型)
更擅长多步推理和逻辑分析的AI,比如o1、Gemini-Reasoning、DeepSeek-R1。它不仅能答题,还能像学生写草稿一样展示思考过程。
二、能力评测与风险
Benchmark(基准测试)
测试模型能力的“AI高考”。比如数学、逻辑、写作分项评分,用来比较谁更聪明。Chatbot Arena
AI之间的擂台。用户只看内容,不看是谁写的,为更好的回答投票,就像AI版的“蒙面歌王”。
Zero-shot / Few-shot
指AI在几乎没见过例题或只看过少量示例的情况下,也能做对新题。就像第一次看别人做寿司,你自己也能上手。Hallucination(幻觉)
AI在没有依据时“编造事实”。它听起来很自信,但可能一本正经地胡说八道。RAG就是为了解决这个问题。
Context Window(上下文窗口)
模型能同时“记住”的信息量。窗口越大,AI理解越连贯,也更擅长长文档分析。Token(标记)
AI处理文本的最小单位。比如“你好”大约是两个token,token越多代表模型读的内容越多,也意味着花费越高。
三、大模型的训练与调优
SFT(Supervised Fine-Tuning,监督微调)
给AI看带标准答案的题,让它学会老师的做题思路。相当于手把手辅导。RLHF(Reinforcement Learning from Human Feedback)
人类对AI的回答打分,AI根据这些反馈学会更有礼貌、更懂人心。ChatGPT的对话风格就是这样训练出来的。
- LoRA(Low-Rank Adaptation)
轻量级的模型微调方式,只改动少量参数。就像在AI上插个小U盘,它立刻学会新技能。
python
# LoRA最小原理示例
class BaseModel:
def forward(self, x): ...
class LoRA:
def __init__(self):
self.A, self.B = init_low_rank()
def forward(self, x):
return x @ self.A @ self.B
Prompt Tuning(提示词调优)
通过优化输入语句,让AI输出符合预期。换种说法,就能让它写出不同风格的内容。Open-Source Models(开源模型)
像Llama、Qwen、Yi、Mistral等,允许开发者自由微调和商用。是AI圈的“开源引擎”。Knowledge Distillation(知识蒸馏)
让小模型从大模型那里学知识。就像老师把经验提炼成小抄交给学生背。
四、实用工具与工作流
- RAG(Retrieval Augmented Generation,检索增强生成)
AI先查资料,再回答问题。避免瞎编,提高时效性,就像学生考试前先翻笔记。
- Workflow(AI工作流)
把检索、推理、生成等步骤串起来,形成一条自动化流水线。现在很多无代码AI平台都能实现这种流程。
- Prompt Engineering(提示词工程)
写好Prompt是门艺术。你说得准,它才能理解你的意图。写Prompt就像写咒语,得精准。
markdown
你是资深AI顾问,请用三步法解释以下概念。
1. 先解释定义;
2. 再举生活类比;
3. 最后总结一句话启发。
问题:{用户输入}
Vibe Coding
用自然语言描述需求,AI自动生成代码。让“写代码”变成“说需求”。AI Search / AI浏览器
融合生成式AI的搜索引擎,比如Perplexity、You.com、Microsoft Copilot。你不再“搜答案”,而是直接“得到答案”。AI PC / Copilot+ PC
内置AI芯片(NPU)的电脑,能本地运行小模型。就像电脑里藏了个小ChatGPT,速度更快还保护隐私。
五、自动化执行与智能体
- Agent(AI智能体)
能理解目标、规划步骤、自动完成任务的AI助手。就像一个永不下班的数字秘书。
AutoGPT / BabyAGI / Devin
早期自动化Agent框架。你只给目标,它就会拆任务、查资料、执行并汇报。SWE-Agent
专为程序员设计的AI助手,能写代码、改功能、修Bug。相当于一个虚拟开发搭档。Orchestration(智能体编排)
当多个Agent协作执行任务时,需要一个调度者。它就像项目经理,分工、监控、整合结果。
Memory(记忆)
让AI不再失忆,可以记住用户偏好、历史对话和上下文。随着记忆系统完善,AI变得更像私人助理。AI Persona(AI角色)
带有特定语气、风格或设定的人格AI,比如AI老师、AI顾问、AI陪伴者。像和一个有性格的助手对话。
六、技术协议与生态标准
- MCP(Model Context Protocol)
统一AI模型与工具、数据源之间的通信协议。它像AI世界的USB接口,让不同AI能无缝协作。
A2A(Agent-to-Agent Communication)
让不同AI智能体之间能直接对话、交换信息的协议。相当于AI之间的“电话线”。Function Calling / OpenAPI
AI可以调用外部函数或API执行任务。也就是说,它不只是能说话,还能“按按钮”完成实际操作。
json
{
"functions": [{
"name": "book_flight",
"description": "根据城市、日期预订机票",
"parameters": {
"from_city": "string",
"to_city": "string",
"date": "string"
}
}]
}
- Local LLM
在本地设备运行的小型语言模型,不依赖云端。数据不出门,安全又私密。
七、具身智能(Embodied AI)
- 具身智能(Embodied AI)
让AI拥有“身体”,能感知环境并行动。它不仅能想,还能干,比如开车、递水、搬箱子。
Vision-Action Model(视觉-动作模型)
AI看见东西后能直接做出反应。像看到球就去接,看到路障就绕开。Sim-to-Real(仿真到现实)
AI先在虚拟环境里练,再去现实世界执行任务。就像先打游戏练习,再上真场。