技术栈全景 · OpenFDE

FDE 不需要把每个工具都用到精通，但需要一张完整的"武器库地图"：知道在全栈、RAG、Agent、评估、基础设施五个领域里，各有哪些必须掌握的点，以及哪些开源项目可以直接拿来当骨架。下面按五个领域展开，并点名一批真实存在的代表性项目。

→

怎么用这张地图

不要试图一次学完。先按能力模型找到自己的短板维度，再到对应领域里挑一个项目动手做一遍——FDE 的技术栈是"用出来"的，不是"看出来"的。

1 · 编程与全栈

FDE 的底座是能独立交付一个 full-stack 系统：前端、后端、数据、部署一把抓，因为客户现场往往没有现成的团队帮你补齐任何一环。要掌握：

语言与框架：Python、TypeScript、React / Next.js、FastAPI / Flask / Node.js
数据与通信：PostgreSQL、Redis、REST / GraphQL、Webhook
交付：Docker、GitHub Actions / CI/CD

企业知识类项目的主战场，难点不是"把文档丢进向量库"，而是权限过滤、数据新鲜度、引用溯源与答案可信。要掌握 embedding model 选择、chunking 策略、metadata filtering、hybrid search、reranking、query rewriting、citation grounding、权限感知检索（permission-aware retrieval）、RAG eval 与幻觉分析——其中权限感知检索几乎是企业落地的硬门槛：同一个问题，不同角色能看到的答案必须不同。

编排框架：LlamaIndex↗ LangChain↗
向量数据库：Chroma↗ Qdrant↗ Weaviate↗ Milvus↗ pgvector↗

3 · Agent / Workflow

从"问答"升级到"可执行"，难点远超普通聊天机器人。要掌握 tool calling、MCP server、agent state、ReAct、planner / executor、human-in-the-loop、多智能体协作、workflow graph、retry / fallback、sandbox execution、action approval 与 trace inspection。Google 的 FDE 岗位直接把 production-grade agentic workflows、MCP servers、state management 与 tracing 列为核心要求。Google Careers↗

Agent 框架：LangGraph↗ AutoGen↗、CrewAI、Google ADK
协议与编排：MCP servers↗ Temporal↗

4 · Eval / Observability

LLM 系统是非确定性的，没有评估与可观测就无法上生产，这也是 AI FDE 与传统软件交付最大的不同。要掌握 golden dataset、offline / online eval、human review、LLM-as-judge 的局限、regression test、prompt / version tracking、cost dashboard、latency tracing、tool call trace、error taxonomy 与用户反馈闭环。要特别警惕 LLM-as-judge——它能加速评估，但不能替代针对失败路径的 golden set 与人工复核。

评估：Ragas↗ DeepEval↗ promptfoo↗
追踪与观测：Langfuse↗ Phoenix↗

5 · Cloud / Infra / Security

决定 AI 系统能否进入受监管或高安全环境。要掌握 AWS / Azure / GCP 基础、VPC / 私有网络、Kubernetes 与 Terraform 基础、secrets management、logging / monitoring、SSO / SAML / OAuth、RBAC / ABAC、audit logs、data residency、合规基础与 on-prem / hybrid 部署。OpenAI 的政府 FDE 岗位直接要求 Azure、AWS、Kubernetes、Terraform 经验。OpenAI Careers↗

基础设施：Kubernetes↗ Terraform↗ OpenTelemetry Collector↗
身份与密钥：Keycloak↗ Vault↗

✦

技术栈的重点不是数量，而是连接

FDE 的差异化不在于"会用多少工具"，而在于能把这五层——全栈、RAG、Agent、Eval、Infra——连成一个能在客户现场跑起来、可衡量、可复用的生产系统。单点最强的人未必是最好的 FDE，能把整条链路打通的人才是。

把这张地图变成肌肉记忆，需要一条循序渐进的练习路径——见学习路线；想深挖每个项目的官方文档与更多一手资料，见参考资料库。

1 · 编程与全栈

2 · LLM / RAG

3 · Agent / Workflow

4 · Eval / Observability

5 · Cloud / Infra / Security