Python Pydantic V2 数据验证实战：用 Rust 内核重新定义数据校验

为什么你需要认真对待数据验证#

我见过太多这样的代码：

1
def create_user(data: dict):
2
    name = data.get("name", "")
3
    age = data.get("age", 0)
4
    email = data.get("email", "")
5
    if not name:
6
        raise ValueError("name is required")
7
    if age < 0 or age > 150:
8
        raise ValueError("invalid age")
9
    if "@" not in email:
10
        raise ValueError("invalid email")
11
    # ... 二十行后终于开始写业务逻辑

手动校验散落在各处，维护成本随业务增长指数级上升。类型标注写了但运行时不检查，dict 传来传去谁也不知道里面到底有什么。

Pydantic 就是解决这个问题的——用声明式的方式定义数据结构，自动完成验证、转换和序列化。而 V2 版本用 Rust 重写了核心引擎 pydantic-core，性能提升 5-50 倍，API 也做了大幅简化。

如果你用过 V1，V2 不是小版本升级，是一次重新设计。如果你没用过 Pydantic，现在是最好的入门时机。

安装与版本确认#

1
pip install pydantic>=2.0

确认版本：

1
import pydantic
2
print(pydantic.__version__)  # 2.x.x

V2 要求 Python 3.8+，但建议用 3.10+ 以获得最佳类型提示体验。

基础模型：从 BaseModel 开始#

Pydantic 的核心是 BaseModel。定义一个模型就像写一个普通的 dataclass，但自带验证超能力：

1
from pydantic import BaseModel, EmailStr
2
from datetime import datetime
3

4
class User(BaseModel):
5
    name: str
6
    age: int
7
    email: EmailStr  # 需要 pip install pydantic[email]
8
    created_at: datetime = datetime.now()
9
    is_active: bool = True

使用时：

1
# 正常创建
2
user = User(name="张三", age=28, email="zhangsan@example.com")
3
print(user.name)        # 张三
4
print(user.model_dump()) # 序列化为字典
5

6
# 自动类型转换
7
user2 = User(name="李四", age="25", email="lisi@example.com")
8
print(user2.age)         # 25 (int, 自动从字符串转换)
9
print(type(user2.age))   # <class 'int'>
10

11
# 验证失败
12
try:
13
    User(name="王五", age="not_a_number", email="invalid")
14
except Exception as e:
15
    print(e)
16
    # 2 validation errors for User
17
    # age: Input should be a valid integer ...
18
    # email: value is not a valid email address ...

这里有几个关键点：

自动类型转换："25" 自动转为 int。Pydantic 不是简单的类型检查，它会尝试合理的类型强转。
一次性报告所有错误：不是遇到第一个错误就停，而是收集所有验证错误一起返回。
不可变 vs 可变：V2 默认模型实例是可变的，如果需要不可变，设置 model_config = ConfigDict(frozen=True)。

V2 的核心变化：别用 V1 的写法了#

如果你从 V1 迁移过来，这张对照表能帮你快速切换：

V1 写法	V2 写法	说明
`.dict()`	`.model_dump()`	序列化为字典
`.json()`	`.model_dump_json()`	序列化为 JSON 字符串
`.parse_obj(data)`	`Model.model_validate(data)`	从字典创建
`.parse_raw(json_str)`	`Model.model_validate_json(json_str)`	从 JSON 创建
`.schema()`	`.model_json_schema()`	生成 JSON Schema
`class Config:`	`model_config = ConfigDict(...)`	配置方式
`@validator`	`@field_validator`	字段校验器
`@root_validator`	`@model_validator`	模型级校验器

V1 的旧方法在 V2 中仍然可用但会发出弃用警告，新项目请一律用新 API。

严格模式 vs 宽松模式#

V2 引入了一个重要概念：验证模式（validation mode）。

默认是宽松模式（lax mode），Pydantic 会尝试合理的类型转换。但有时你需要严格模式：

1
from pydantic import BaseModel, ConfigDict
2

3
class StrictUser(BaseModel):
4
    model_config = ConfigDict(strict=True)
5

6
    name: str
7
    age: int
8

9
# 宽松模式下这没问题
10
user = User(name="张三", age="28")  # OK, "28" → 28
11

12
# 严格模式下直接报错
13
try:
14
    strict_user = StrictUser(name="张三", age="28")
15
except Exception as e:
16
    print(e)  # Input should be a valid integer

你也可以在单个字段上指定严格模式：

1
from pydantic import BaseModel, Field
2

3
class MixedUser(BaseModel):
4
    name: str
5
    age: int = Field(strict=True)   # 这个字段严格
6
    score: float                     # 这个字段宽松

什么时候用严格模式？ 当你的数据来源是可控的（比如内部系统间通信），你希望类型错误被立即暴露而不是被静默转换时。接收用户输入时，宽松模式通常更友好。

字段约束：Field 的威力#

Field 是 Pydantic 的瑞士军刀，几乎所有字段级的配置都通过它完成：

1
from pydantic import BaseModel, Field
2

3
class Product(BaseModel):
4
    name: str = Field(
5
        min_length=1,
6
        max_length=100,
7
        description="产品名称"
8
    )
9
    price: float = Field(
10
        gt=0,          # 大于 0
11
        le=999999.99,  # 小于等于 999999.99
12
        description="价格（元）"
13
    )
14
    quantity: int = Field(
15
        ge=0,          # 大于等于 0
16
        default=0,
17
        description="库存数量"
18
    )
19
    tags: list[str] = Field(
20
        default_factory=list,
21
        max_length=10,  # 列表最多 10 个元素
22
        description="产品标签"
23
    )
24
    sku: str = Field(
25
        pattern=r'^[A-Z]{2}-\d{6}$',  # 正则校验
26
        description="SKU 编码，格式如 AB-123456"
27
    )

常用约束一览：

约束	适用类型	说明
`gt`, `ge`, `lt`, `le`	数值	大于/大于等于/小于/小于等于
`min_length`, `max_length`	字符串、列表	最小/最大长度
`pattern`	字符串	正则表达式匹配
`default`, `default_factory`	所有	默认值
`alias`	所有	字段别名
`exclude`	所有	序列化时排除
`frozen`	所有	字段不可变

自定义校验器：field_validator 与 model_validator#

当内置约束不够用时，自定义校验器登场。V2 的校验器比 V1 清晰很多：

field_validator：单字段校验#

1
from pydantic import BaseModel, field_validator
2

3
class UserRegister(BaseModel):
4
    username: str
5
    password: str
6
    confirm_password: str
7

8
    @field_validator('username')
9
    @classmethod
10
    def username_must_be_alphanumeric(cls, v: str) -> str:
11
        if not v.isalnum():
12
            raise ValueError('用户名只能包含字母和数字')
13
        if len(v) < 3:
14
            raise ValueError('用户名至少 3 个字符')
15
        return v.lower()  # 返回值会替代原始值
16

17
    @field_validator('password')
18
    @classmethod
19
    def password_strength(cls, v: str) -> str:
20
        if len(v) < 8:
21
            raise ValueError('密码至少 8 个字符')
22
        if not any(c.isupper() for c in v):
23
            raise ValueError('密码必须包含大写字母')
24
        if not any(c.isdigit() for c in v):
25
            raise ValueError('密码必须包含数字')
26
        return v

注意几个细节：

V2 中 @field_validator 必须搭配 @classmethod
校验器返回值会替代原始值（所以 v.lower() 能生效）
抛出 ValueError 或 AssertionError 即可

model_validator：跨字段校验#

1
from pydantic import BaseModel, model_validator
2

3
class UserRegister(BaseModel):
4
    username: str
5
    password: str
6
    confirm_password: str
7

8
    @model_validator(mode='after')
9
    def passwords_match(self) -> 'UserRegister':
10
        if self.password != self.confirm_password:
11
            raise ValueError('两次密码不一致')
12
        return self

model_validator 有两种模式：

mode='before'：在字段解析之前执行，接收原始输入（通常是 dict）
mode='after'：在所有字段解析完成后执行，接收模型实例

实战经验：before 模式适合处理数据预处理（比如把扁平结构转成嵌套结构），after 模式适合做跨字段的业务规则校验。

嵌套模型与复杂数据结构#

真实业务中的数据很少是扁平的。Pydantic 对嵌套结构的支持非常自然：

1
from pydantic import BaseModel, Field
2
from datetime import datetime
3
from enum import Enum
4

5
class OrderStatus(str, Enum):
6
    PENDING = "pending"
7
    PAID = "paid"
8
    SHIPPED = "shipped"
9
    DELIVERED = "delivered"
10
    CANCELLED = "cancelled"
11

12
class Address(BaseModel):
13
    province: str
14
    city: str
15
    district: str
16
    detail: str
17
    zip_code: str = Field(pattern=r'^\d{6}$')
18

19
class OrderItem(BaseModel):
20
    product_id: int
21
    name: str
22
    price: float = Field(gt=0)
23
    quantity: int = Field(ge=1)
24

25
    @property
26
    def subtotal(self) -> float:
27
        return self.price * self.quantity
28

29
class Order(BaseModel):
30
    order_id: str
31
    customer_name: str
32
    shipping_address: Address            # 嵌套模型
33
    items: list[OrderItem]               # 嵌套模型列表
34
    status: OrderStatus = OrderStatus.PENDING  # 枚举
35
    created_at: datetime = Field(default_factory=datetime.now)
36
    note: str | None = None              # 可选字段（Python 3.10+ 语法）
37

38
    @field_validator('items')
39
    @classmethod
40
    def must_have_items(cls, v):
41
        if not v:
42
            raise ValueError('订单至少需要一个商品')
43
        return v
44

45
    @property
46
    def total(self) -> float:
47
        return sum(item.subtotal for item in self.items)

使用示例：

1
order_data = {
2
    "order_id": "ORD-20260510-001",
3
    "customer_name": "张三",
4
    "shipping_address": {
5
        "province": "浙江省",
6
        "city": "杭州市",
7
        "district": "西湖区",
8
        "detail": "文三路 100 号",
9
        "zip_code": "310000"
10
    },
11
    "items": [
12
        {"product_id": 1, "name": "机械键盘", "price": 599.0, "quantity": 1},
13
        {"product_id": 2, "name": "鼠标垫", "price": 49.9, "quantity": 2}
14
    ],
15
    "note": "请在工作日送达"
16
}
17

18
order = Order.model_validate(order_data)
19
print(f"订单总额: ¥{order.total:.2f}")   # ¥698.80
20
print(order.model_dump_json(indent=2))    # 格式化 JSON

嵌套模型的验证是递归进行的——Address 和 OrderItem 的校验规则会自动生效，不需要你手动调用。

序列化控制：精确控制输出#

V2 的序列化能力比 V1 强大得多：

1
from pydantic import BaseModel, Field, field_serializer
2
from datetime import datetime
3

4
class Article(BaseModel):
5
    title: str
6
    content: str
7
    author_id: int = Field(exclude=True)  # 序列化时排除
8
    created_at: datetime
9
    internal_score: float = Field(exclude=True)
10

11
    @field_serializer('created_at')
12
    def serialize_datetime(self, value: datetime, _info) -> str:
13
        return value.strftime('%Y年%m月%d日 %H:%M')
14

15
article = Article(
16
    title="Pydantic V2 实战",
17
    content="...",
18
    author_id=42,
19
    created_at=datetime(2026, 5, 10, 14, 30),
20
    internal_score=9.5
21
)
22

23
# 默认序列化（排除标记了 exclude 的字段）
24
print(article.model_dump())
25
# {'title': 'Pydantic V2 实战', 'content': '...', 'created_at': '2026年05月10日 14:30'}
26

27
# 按需包含/排除
28
print(article.model_dump(include={'title', 'created_at'}))
29
# {'title': 'Pydantic V2 实战', 'created_at': '2026年05月10日 14:30'}

model_dump() 的常用参数：

1
article.model_dump(
2
    mode='json',           # 输出 JSON 兼容类型
3
    include={'title'},     # 只包含指定字段
4
    exclude={'content'},   # 排除指定字段
5
    exclude_none=True,     # 排除 None 值
6
    exclude_unset=True,    # 排除未显式设置的字段
7
    by_alias=True,         # 使用字段别名
8
)

exclude_unset=True 在 PATCH 接口中特别有用——你可以区分”用户传了 null”和”用户没传这个字段”。

与 FastAPI 的黄金搭配#

Pydantic 是 FastAPI 的数据层基石。两者配合能写出极其简洁的 API：

1
from fastapi import FastAPI, HTTPException
2
from pydantic import BaseModel, Field, EmailStr
3
from datetime import datetime
4

5
app = FastAPI()
6

7
# 请求模型
8
class UserCreate(BaseModel):
9
    username: str = Field(min_length=3, max_length=20)
10
    email: EmailStr
11
    password: str = Field(min_length=8)
12

13
# 响应模型（不包含密码）
14
class UserResponse(BaseModel):
15
    id: int
16
    username: str
17
    email: str
18
    created_at: datetime
19

20
    model_config = ConfigDict(from_attributes=True)  # 支持从 ORM 对象创建
21

22
# 更新模型（所有字段可选）
23
class UserUpdate(BaseModel):
24
    username: str | None = None
25
    email: EmailStr | None = None
26

27
@app.post("/users", response_model=UserResponse)
28
async def create_user(user: UserCreate):
29
    # FastAPI 自动用 UserCreate 验证请求体
30
    # 如果验证失败，自动返回 422 + 详细错误信息
31
    db_user = fake_db.create(user.model_dump())
32
    return db_user
33

34
@app.patch("/users/{user_id}", response_model=UserResponse)
35
async def update_user(user_id: int, updates: UserUpdate):
36
    # exclude_unset=True 只更新用户实际传入的字段
37
    update_data = updates.model_dump(exclude_unset=True)
38
    if not update_data:
39
        raise HTTPException(400, "没有需要更新的字段")
40
    db_user = fake_db.update(user_id, update_data)
41
    return db_user

这种模式的精妙之处：

UserCreate 用于创建，所有字段必填
UserResponse 用于响应，排除了敏感字段（密码）
UserUpdate 用于部分更新，所有字段可选，配合 exclude_unset=True 精确更新

三个模型各司其职，既安全又灵活。

高级技巧：TypeAdapter 与独立验证#

不是所有场景都需要定义 BaseModel。V2 新增的 TypeAdapter 可以对任意类型做验证：

1
from pydantic import TypeAdapter
2

3
# 验证简单类型
4
int_adapter = TypeAdapter(int)
5
result = int_adapter.validate_python("42")  # 42
6

7
# 验证复杂类型
8
from typing import List
9
list_adapter = TypeAdapter(List[int])
10
result = list_adapter.validate_python(["1", "2", "3"])  # [1, 2, 3]
11

12
# 验证 Union 类型
13
from typing import Union
14
union_adapter = TypeAdapter(Union[int, str])
15
result = union_adapter.validate_python(42)    # 42
16
result = union_adapter.validate_python("hi")  # "hi"
17

18
# 生成 JSON Schema
19
schema = list_adapter.json_schema()
20
print(schema)  # {'items': {'type': 'integer'}, 'type': 'array'}

TypeAdapter 特别适合：

验证函数参数
处理配置文件
验证第三方 API 返回的数据
不想为简单校验定义整个 Model 时

实战案例：配置文件解析器#

来看一个真实场景——用 Pydantic 解析和验证应用配置：

1
from pydantic import BaseModel, Field, field_validator, model_validator
2
from pydantic import ConfigDict
3
from pathlib import Path
4
import json
5

6
class DatabaseConfig(BaseModel):
7
    host: str = "localhost"
8
    port: int = Field(default=5432, ge=1, le=65535)
9
    name: str
10
    user: str
11
    password: str = Field(min_length=8)
12
    pool_size: int = Field(default=10, ge=1, le=100)
13
    ssl_mode: str = Field(default="prefer", pattern=r'^(disable|allow|prefer|require)$')
14

15
class RedisConfig(BaseModel):
16
    url: str = "redis://localhost:6379/0"
17
    max_connections: int = Field(default=20, ge=1)
18
    key_prefix: str = "app:"
19

20
class LoggingConfig(BaseModel):
21
    level: str = "INFO"
22
    format: str = "json"
23
    file: Path | None = None
24

25
    @field_validator('level')
26
    @classmethod
27
    def validate_level(cls, v):
28
        allowed = {'DEBUG', 'INFO', 'WARNING', 'ERROR', 'CRITICAL'}
29
        v_upper = v.upper()
30
        if v_upper not in allowed:
31
            raise ValueError(f'日志级别必须是 {allowed} 之一')
32
        return v_upper
33

34
class AppConfig(BaseModel):
35
    model_config = ConfigDict(
36
        extra='forbid',  # 禁止未定义的字段，防止拼写错误
37
    )
38

39
    app_name: str
40
    debug: bool = False
41
    version: str = Field(pattern=r'^\d+\.\d+\.\d+$')
42
    database: DatabaseConfig
43
    redis: RedisConfig = RedisConfig()
44
    logging: LoggingConfig = LoggingConfig()
45

46
    @model_validator(mode='after')
47
    def production_checks(self):
48
        if not self.debug:
49
            if self.database.ssl_mode == 'disable':
50
                raise ValueError('生产环境必须启用数据库 SSL')
51
            if self.logging.level == 'DEBUG':
52
                raise ValueError('生产环境不允许 DEBUG 日志级别')
53
        return self
54

55
def load_config(path: str) -> AppConfig:
56
    """从 JSON 文件加载配置，自动验证"""
57
    with open(path) as f:
58
        data = json.load(f)
59
    return AppConfig.model_validate(data)
60

61
# 使用
62
config = load_config("config.json")
63
print(f"连接数据库: {config.database.host}:{config.database.port}/{config.database.name}")

这个配置解析器的优势：

声明式定义：配置结构一目了然
自动验证：端口范围、密码长度、日志级别都有保障
跨字段校验：生产环境自动检查安全配置
extra='forbid'：防止配置文件中出现拼写错误的键名（这个救了我无数次）

性能：Rust 内核到底快了多少#

V2 用 Rust 重写了验证核心 pydantic-core，实际性能提升非常显著：

1
import timeit
2
from pydantic import BaseModel
3

4
class SimpleModel(BaseModel):
5
    name: str
6
    age: int
7
    score: float
8

9
data = {"name": "test", "age": 25, "score": 95.5}
10

11
# 简单模型验证：通常在 1-3 微秒
12
result = timeit.timeit(
13
    lambda: SimpleModel.model_validate(data),
14
    number=100000
15
)
16
print(f"平均耗时: {result/100000*1_000_000:.1f} 微秒")

实测对比（同一台机器）：

场景	V1 耗时	V2 耗时	提升倍数
简单模型创建	~12 μs	~1.5 μs	8x
嵌套模型验证	~45 μs	~5 μs	9x
JSON 解析 + 验证	~60 μs	~3 μs	20x
大批量序列化	~200 μs	~15 μs	13x

JSON 解析场景提升最大，因为 V2 的 model_validate_json() 在 Rust 层同时完成 JSON 解析和数据验证，避免了 Python 层的 json.loads() 开销。

性能建议：如果你的数据源是 JSON 字符串，优先用 model_validate_json() 而不是先 json.loads() 再 model_validate()。

常见坑与避坑指南#

坑1：可变默认值#

1
# ❌ 错误：所有实例共享同一个列表
2
class Bad(BaseModel):
3
    items: list = []
4

5
# ✅ 正确：用 default_factory
6
class Good(BaseModel):
7
    items: list = Field(default_factory=list)

坑2：datetime 时区问题#

1
from pydantic import BaseModel, field_validator
2
from datetime import datetime, timezone
3

4
class Event(BaseModel):
5
    start_time: datetime
6

7
    @field_validator('start_time')
8
    @classmethod
9
    def ensure_utc(cls, v):
10
        if v.tzinfo is None:
11
            # 无时区信息时假设为 UTC
12
            return v.replace(tzinfo=timezone.utc)
13
        return v.astimezone(timezone.utc)

坑3：字符串枚举的大小写#

1
from pydantic import BaseModel, field_validator
2

3
class Query(BaseModel):
4
    sort_order: str
5

6
    @field_validator('sort_order')
7
    @classmethod
8
    def normalize_sort(cls, v):
9
        v = v.lower()
10
        if v not in ('asc', 'desc'):
11
            raise ValueError('排序方式只能是 asc 或 desc')
12
        return v

坑4：循环引用模型#

1
from __future__ import annotations  # 延迟注解求值
2
from pydantic import BaseModel
3

4
class TreeNode(BaseModel):
5
    value: str
6
    children: list[TreeNode] = []  # 自引用
7

8
# 必须在所有模型定义完成后调用
9
TreeNode.model_rebuild()

写在最后#

Pydantic V2 不只是一个数据验证库，它是 Python 生态中”数据即代码”理念的最佳实践。当你用 Pydantic 定义模型时，你同时在做：

文档：模型定义就是数据文档
验证：自动校验，不需要手写 if-else
序列化：一键转 dict/JSON
类型安全：IDE 补全和类型检查开箱即用
Schema 生成：自动产出 JSON Schema，可用于 OpenAPI/Swagger

如果你在写 FastAPI，Pydantic 是必修课。如果你在写任何处理外部数据的 Python 代码（API 调用、配置解析、数据管道），Pydantic 都值得引入。

V2 的 Rust 内核让性能不再是顾虑，新的 API 设计让代码更直觉。与其在 dict 的泥潭里挣扎，不如花半小时学会 Pydantic，让数据验证变成一件自然而然的事。

完整代码示例可在 GitHub Gist 获取。建议搭配 Pydantic 官方文档食用。

音乐

音乐