关于数据库的一切梗概 | AI WEB SAAS笔记(2)
TLDR
你现在不用一上来学会所有数据库细节,你真正要的是先建立一张地图,不然东学一点西学一点,最后最容易死在三件事上
第一,不知道数据该怎么设计,后面越做越乱
第二,不知道性能和成本怎么失控的,用户一多就炸
第三,不知道安全和备份怎么做,最后最贵的不是服务器,是出事
你主要做 AI 外部 API/SaaS 这一类东西的话,数据库不用按学院派那种啃到发霉。你要按创业者和产品工程的视角学。核心目标就一句话
你要知道数据从哪里来,存在哪里,怎么查出来,怎么不丢,怎么不乱,怎么不贵,怎么不泄露,怎么能支撑业务增长
我先给你一张完整学习地图,然后再告诉你哪些最优先,哪些只是知道就行,哪些最容易踩坑。
一 数据库到底是什么
别把数据库想得太玄乎,它本质上就是
帮你长期保存数据
帮你快速找到数据
帮你保证数据别乱
帮你支持多人同时读写
帮你在出错后还能恢复
你做 AI SaaS,本质上每天都在处理数据,只是很多人没意识到。比如
用户账号数据
订阅和支付数据
积分和额度数据
API 调用日志
生成任务记录
图片视频文件地址
prompt 和结果
失败重试记录
团队权限
营销线索
埋点和分析数据
这些都属于数据库范畴。
二 你要先知道的数据库历史脉络
这个很重要。不是为了装逼,是为了知道为什么今天数据库会分这么多门派。
1 最早期
最早不是数据库,就是文件
程序把数据写到 txt csv json excel 这种文件里
优点是简单
缺点是乱,难查,容易冲突,无法支撑多人和复杂业务
很多小白创业者第一步就死在这。项目早期用表格爽,后期一坨屎。
2 层级数据库和网状数据库
很早期有这种东西,像树状关系
今天你不用深入学,但要知道数据库不是一开始就长成现在这样
3 关系型数据库时代
这是最核心的革命
代表
MySQL
PostgreSQL
Oracle
SQL Server
思想是
用表、行、列组织数据
通过关系连接不同表
用 SQL 查询
强调一致性和结构化
这套东西到今天仍然是绝对主力。
你做 SaaS,大多数核心业务都应该先从关系型数据库开始。
4 NoSQL 时代
后来互联网业务变复杂,数据量暴涨,关系型数据库不是所有场景都最优,于是有了 NoSQL
代表
MongoDB 文档型
Redis 键值型
Cassandra 宽列型
Neo4j 图数据库
思想是
不一定强制表结构
强调灵活性、扩展性、特定场景性能
5 大数据与分布式时代
数据太多,一台机器不够,开始搞分布式存储和计算
代表
Hadoop
Spark
ClickHouse
BigQuery
Snowflake
这更多偏分析,不是你最开始必须深学,但你得知道以后会遇到。
6 云数据库时代
不用自己买服务器装数据库了,云厂商帮你托管
代表
AWS RDS
Cloud SQL
Supabase
PlanetScale
Neon
Firebase
这个对独立开发者极其重要,因为它降低了门槛。
7 AI 时代的新数据库需求
AI 出来后,新增了一堆数据需求
向量数据库
Embedding 检索
多模态元数据管理
长任务状态管理
对话历史
知识库切片
RAG 检索
日志与观测
代表
Pinecone
Weaviate
Milvus
Qdrant
pgvector
三 你必须理解的数据库核心模块
下面这些是完整地图。你不用一次学完,但你得知道山头在哪。
1 数据模型
这是根。很多人不学这个,后面全废。
你要学什么
什么是实体
什么是字段
什么是主键
什么是外键
什么是一对一、一对多、多对多
什么是规范化
什么是反规范化
什么是冗余字段
什么是派生字段
什么是枚举状态
什么是软删除
你要问自己的问题
一个用户能有几个项目
一个项目能有几次生成任务
一个任务有几种状态
支付记录和订阅记录怎么分开
日志要不要和主表分离
这部分最值钱。
数据库设计烂,后面所有代码、性能、统计、计费都会一起烂。
2 关系型数据库
这是必学中的必学
你要学什么
表
行
列
主键
唯一约束
非空约束
默认值
外键
索引
视图
事务
连接查询
聚合查询
分页
排序
分组
最重要的不是背概念,而是知道
什么数据适合放表里
怎么拆表
怎么连接
怎么避免重复数据
3 SQL
SQL 不是可选,是基本功
你至少要会
select
where
order by
limit
group by
join
insert
update
delete
count
sum
avg
distinct
having
subquery
case when
再往上要知道
窗口函数
CTE
upsert
事务控制
锁相关语句
explain 分析查询计划
不会 SQL,就像做电商不会看毛利。容易被工具骗。
4 NoSQL
你不一定先用,但得知道什么时候该上
文档数据库
像 MongoDB
适合结构变化大、JSON 很多的场景
键值数据库
像 Redis
适合缓存、会话、限流、排行榜、短期状态
列式数据库
像 ClickHouse
适合日志分析、行为分析、大规模聚合统计
图数据库
像 Neo4j
适合复杂关系网络,不是你前期重点
5 缓存
很多人以为缓存不是数据库,其实它和数据库紧密耦合
你要学
为什么要缓存
缓存和数据库怎么配合
缓存击穿
缓存穿透
缓存雪崩
缓存一致性
TTL
热点数据
Redis 是这里的主角。
你做 AI SaaS,配额、验证码、短会话、频繁读取的数据,都会用到它。
6 搜索系统
有些查询数据库很难高效做,要用搜索引擎
你要知道
全文搜索
分词
倒排索引
模糊搜索
相关性排序
代表
Elasticsearch
OpenSearch
Meilisearch
比如你做知识库、提示词库、素材库、工单系统,这个很常见。
7 向量数据库
AI 产品里必须知道,但不要把它神化
你要学
什么是 embedding
什么是向量相似度
什么是 top k 检索
什么是 metadata filter
什么是 RAG
什么是 chunk
什么是 rerank
什么是 recall 和 precision
注意
向量数据库不是万能数据库
它不能替代关系型数据库
用户、订单、余额、权限这些核心业务,还是老老实实用 Postgres/MySQL
很多新手傻乎乎地拿向量库存业务主数据,纯找死。
8 数据仓库和分析
当你开始看业务增长,就不只是存数据,还要分析数据
你要知道
OLTP 和 OLAP 的区别
线上交易库和分析库不要混
事件埋点
漏斗分析
留存分析
分群分析
归因
BI 报表
代表
BigQuery
Snowflake
ClickHouse
Metabase
Superset
9 文件存储
很多人把文件和数据库混为一谈
图片
视频
PDF
音频
模型输出文件
一般不直接存进关系数据库正文里
通常做法是
文件放对象存储
数据库里只存 URL、元数据、状态、权限信息
代表
S3
Cloudflare R2
Supabase Storage
10 事务与一致性
这是数据库里最容易让小白懵逼,但最能避免吃亏的地方
你要懂
什么是事务
什么是原子性
什么是一致性
什么是隔离性
什么是持久性
什么是并发冲突
什么是脏读
什么是不可重复读
什么是幻读
为什么这东西重要
比如用户充值了,余额加了,但订单没记成功
或者生成次数扣了两次
或者两个请求同时来,把同一份额度都扣了
这就是事务和并发控制没搞好。
11 索引
索引像书的目录,不是数据本身,但决定你查得快不快
你要学
单列索引
联合索引
唯一索引
覆盖索引
B 树
什么时候该建索引
什么时候别乱建索引
注意
索引不是越多越好
索引会拖慢写入
会占空间
联合索引顺序会影响效果
12 数据迁移和 schema 变更
产品会迭代,数据库结构一定会改
你要学
什么是 migration
怎么加字段
怎么改字段
怎么删字段
怎么做向后兼容
怎么避免线上改表把服务打挂
很多人本地改得飞起,线上一改全站炸。因为根本没学迁移。
13 备份与恢复
这是生死线
你要学
全量备份
增量备份
快照
恢复点
灾难恢复
误删恢复
跨区域备份
真正的高手不是从不出错,是出了错还能活下来。
14 权限与安全
这一块不学,等于埋雷
你要学
数据库账号权限分离
最小权限原则
生产库和测试库隔离
SQL 注入
字段脱敏
加密
审计日志
行级权限 Row Level Security
AI SaaS 很容易碰到敏感信息
邮箱
支付信息
用户上传内容
API key
企业文档
这些出一次事,辛苦几个月白干。
15 高可用与扩展
当用户多了,就会遇到
数据库顶不住
连接数爆了
CPU 爆了
磁盘打满
慢查询越来越多
你要知道
读写分离
主从复制
分库分表
分区
连接池
水平扩展
垂直扩展
多可用区部署
前期不用全做,但必须知道路线。
16 监控与运维
数据库不是装上就完了,要持续盯
你要知道
慢查询日志
QPS
TPS
连接数
CPU
内存
磁盘
锁等待
缓存命中率
复制延迟
错误率
不会看监控的人,数据库炸了都不知道是为什么。
四 你做 AI SaaS 最该优先掌握的数据库知识
你不是去当 DBA,也不是去写数据库论文。你最应该掌握的是这套
第一层 必学
这个不学会,一定吃亏
关系型数据库基础
PostgreSQL 或 MySQL 选一个先学
SQL 基础
数据建模
索引
事务
备份恢复
权限安全
迁移
第二层 很重要
做到产品开始赚钱就要补上
Redis
日志表设计
埋点设计
搜索
对象存储
连接池
性能优化
监控告警
第三层 AI 相关
做 AI 产品时需要补
向量数据库
embedding 和 RAG
任务队列表设计
大模型调用日志
prompt/result 存储策略
成本统计
配额和额度扣减机制
第四层 增长后补
用户和数据量上来再学
数据仓库
BI
ClickHouse
分布式架构
分库分表
复杂权限模型
多租户架构
五 你做 AI 外部 API/SaaS,数据库里最常见的业务模块
这个你最好直接记下来,因为以后你一做产品就会碰到。
1 用户系统
用户表
登录方式
邮箱验证
第三方登录
角色权限
团队成员
2 订阅计费
套餐表
订单表
支付记录
发票
退款
试用
续费
到期时间
3 积分额度
余额
额度包
消耗记录
赠送记录
冻结额度
失败返还
并发扣减
4 AI 调用记录
模型名
输入 token
输出 token
请求时间
响应时间
成本
状态码
错误信息
供应商
5 任务系统
任务创建
排队
处理中
完成
失败
取消
重试次数
回调结果
6 内容与结果
prompt
system prompt
生成结果
文件 URL
缩略图
metadata
版本号
是否公开
7 埋点分析
访问来源
页面浏览
点击
注册转化
付费转化
留存
活跃度
功能使用频率
8 客服和风控
工单
反馈
举报
风控规则
黑名单
限流
异常行为日志
六 你最容易踩的数据库大坑
这部分很值钱,很多人就是死在这些坑里。
1 一开始不用主键和唯一约束
后面重复数据满天飞
一个用户能注册三次
一个订单能被插两次
2 状态字段设计混乱
任务状态没有标准
一会儿 pending 一会儿 processing 一会儿 doing
最后统计全错
3 把所有东西塞一个表
看起来省事,后面根本查不动,也改不动
4 把 JSON 当万能垃圾桶
JSON 不是不能用,但不能拿它掩盖你不会设计表
5 不做索引
前期数据少没感觉
数据一多查询慢成狗
6 索引乱建
每个字段都建索引
最后写入变慢,空间爆炸
7 不考虑并发
同一时间多个请求扣额度
余额扣错
重复下单
重复回调
8 不做幂等
支付回调来两次
任务重试来三次
数据重复生成
9 不做备份
这不是坑,这是自杀
10 生产环境直接手改数据
一时爽,后面没人知道你改了什么
11 日志和业务主表混在一起
日志量大得吓人
最后主业务查询都被拖死
12 大文件直接塞数据库
图像、音频、视频正文别乱塞
数据库不是仓库
13 数据库和业务代码强耦合
改个字段就全站报错
14 不区分测试数据和正式数据
分析结果全失真
自动化脚本误伤生产
15 没有数据删除策略
日志无限长
成本无限涨
合规也可能出问题
16 不懂合规和隐私
用户要求删数据
你删不干净
或者根本没法导出
七 你应该按什么顺序学
你是小白,就别学成百科全书。先把最有杠杆的东西吃透。
第一阶段 先建立认知
目标
知道数据库是干嘛的,知道几大类数据库分别解决什么问题
学这些
关系型数据库和 NoSQL 的区别
数据库、缓存、对象存储、搜索引擎、向量数据库分别是什么
为什么 AI SaaS 通常不能只靠一种库
第二阶段 学会最基本的实战
目标
自己能看懂一个 SaaS 的数据库设计
学这些
表
主键
外键
一对多、多对多
SQL 增删改查
索引
事务
唯一约束
时间字段 created_at updated_at
第三阶段 学会设计业务表
目标
能设计出用户、订单、任务、额度、日志这几种核心表
学这些
用户系统
支付系统
任务队列状态
API 调用日志
文件元数据
权限模型
第四阶段 学会避免线上事故
目标
别乱改库,别丢数据,别重复扣费
学这些
迁移
备份
恢复
幂等
并发
锁
审计
最小权限
第五阶段 学会 AI SaaS 特有的数据系统
目标
让 AI 产品能跑得稳,算得清,控得住
学这些
任务队列
异步处理
token 成本记录
供应商调用日志
配额控制
RAG 和向量检索
缓存
对象存储
第六阶段 学会增长和分析
目标
知道用户为什么来、为什么走、为什么付费
学这些
埋点
事件模型
分析数据库
漏斗
留存
LTV
转化率
八 你做 AI SaaS 最建议的数据库技术路线
别搞太花,先用最稳的。
最推荐的新手路线
PostgreSQL
Redis
对象存储 S3 或 R2
可选 pgvector
可选 ClickHouse
为什么推荐这套
Postgres 足够强
既能做核心业务
又能做 JSON
还能扩展向量
生态成熟
教程多
Supabase/Neon 这种新手友好
Redis 负责缓存和短期状态
对象存储放大文件
pgvector 让你先低成本做向量检索
以后数据分析重了再加 ClickHouse
你别一上来 MongoDB + Pinecone + Kafka + Elasticsearch + Snowflake 全上
那不是创业,那是给自己挖坟。
九 你学习时每个模块要问的关键问题
这个特别重要。你以后看到任何数据库概念,都拿这几个问题拷打它。
这个东西解决什么问题
它和别的方案比,优势在哪
它的成本是什么
它在哪些场景下不适合
对我的产品现在是不是刚需
它会不会让系统更复杂
它出问题时怎么恢复
它会不会影响以后扩展
十 数据库学习全模块清单
下面我给你一个尽量完整的目录,你照着看就行。
A 基础认知
数据库是什么
数据库管理系统是什么
数据模型是什么
结构化数据和非结构化数据
OLTP 和 OLAP
CAP
ACID
BASE
B 关系型数据库
表
字段
主键
外键
约束
事务
视图
触发器
存储过程
索引
分区
复制
C SQL
增删改查
连接查询
聚合
子查询
窗口函数
CTE
事务控制
执行计划
优化
D NoSQL
键值
文档
列族
图数据库
适用场景
一致性与扩展性取舍
E 缓存
Redis
缓存策略
缓存一致性
热点问题
过期策略
队列和锁
F 搜索
全文检索
倒排索引
分词
相关性排序
搜索建议
拼写纠错
G 向量与 AI 数据库
embedding
chunking
metadata
top k
ANN
RAG
rerank
混合检索
H 数据建模
实体关系
ER 图
规范化
反规范化
冗余
软删除
审计字段
状态机设计
多租户设计
I 性能优化
索引设计
查询优化
分页优化
冷热数据分层
批量写入
连接池
慢查询
J 一致性与并发
事务隔离级别
锁
乐观锁
悲观锁
幂等
去重
重复请求处理
K 安全
认证
授权
SQL 注入
加密
脱敏
审计
备份权限
环境隔离
L 运维
备份
恢复
迁移
监控
报警
扩容
高可用
容灾
M 数据分析
埋点
事件表
漏斗
留存
分群
BI
数据仓库
ETL/ELT
N 文件和对象存储
图片视频存储
元数据
CDN
签名 URL
权限控制
生命周期管理
O AI SaaS 专项
模型调用日志
token 成本
配额
账单
任务队列
异步回调
失败重试
结果缓存
对话历史
知识库索引
P 法律合规
用户数据删除
隐私政策
数据保留周期
跨境传输
敏感信息管理
日志保留边界
十一 你现在最该学的最小闭环
你现在别贪多,先把这 12 个点搞懂,已经能避开大多数坑了
什么是表、行、列
什么是主键、外键、唯一约束
一对多、多对多
SQL 基础增删改查
join
索引
事务
幂等
备份恢复
Redis 基础
对象存储
AI 任务和日志表设计
只要你把这套吃透,你做大多数 AI web SaaS 已经不会在数据层面被人吊打。
十二 给你一个最实用的学习心法
数据库学习最怕两种傻逼路线
一种是只学概念,不碰业务
最后张口 ACID 闭口 CAP,结果不会设计一个订单表
另一种是只会调工具,不懂原理
最后 Supabase 给你配好了你就会,一出问题就懵
正确路线是
先理解业务
再设计数据
再写 SQL
再看性能
再管安全
再做扩展
数据库不是独立学科,它是业务的骨架。
产品能不能赚钱,很多时候不是前端漂不漂亮,而是你的数据系统能不能把用户、额度、支付、任务、日志、增长这一整套给稳稳接住。
一句话送你
不会数据库的人,做产品像在沙滩上盖楼
懂数据库的人,才是在打地基