数据库领域正在经历自2010年代NoSQL运动以来最大的转变。两股力量正在重塑一切:人工智能和数据库领域正在经历自2010年代NoSQL运动以来最大的转变。两股力量正在重塑一切:人工智能和

数据库演变:从传统关系型数据库管理系统到人工智能原生及量子就绪系统

还记得选择数据库曾经很简单的时候吗?你为事务数据选择 MySQL 或 PostgreSQL,如果需要灵活性可能会添加 MongoDB,然后就完事了。我记得曾与同事讨论过分片(sharding),这是 MongoDB 中用于水平扩展的方法。那些日子已经结束了。

数据库领域正在经历自 2010 年代 NoSQL 运动以来最大的转变。但这一次,不仅仅是关于规模或灵活性。两股力量正在重塑一切:人工智能和量子计算。AI 工作负载需要围绕向量嵌入、相似性搜索和实时推理构建的全新数据库设计。与此同时,量子计算在地平线上若隐若现,威胁要破解我们的加密,并承诺彻底改变查询优化。

在我最近关于数据架构和 AI 基础设施的文章中,我们探讨了这些技术如何改变数据管理。但数据库层才是真正见真章的地方。搞错了,你的 AI 功能就会爬行。搞对了,你就能解锁几年前还不可能实现的能力。

这一刻的独特之处在于:我们不仅仅是在生态系统中添加新的数据库类型。我们正在从根本上重新思考数据库需要做什么。向量相似性搜索正变得与 SQL 连接一样重要。抗量子加密正在从理论关注转变为实际需求。特征存储正在成为 ML 运营的关键基础设施。旧的做法不再适用。

在本文中,你将了解现代数据库的演变、它们如何适应 AI 工作负载、量子计算对数据存储和检索意味着什么,以及最重要的是,如何构建准备好应对这两个挑战的数据库架构。无论你今天是在运行生产 ML 系统还是在为明天做规划,理解这一转变都至关重要。

为什么传统数据库陷入困境

传统关系数据库几十年来运作良好。PostgreSQL、MySQL 和 Oracle 凭借 ACID 保证和 SQL 的简单优雅为企业应用提供动力。但 AI 和机器学习的爆炸性增长暴露了旧数据库设计的严重局限性。

想想这个:单个大型语言模型训练运行可以处理 PB 级数据,需要数千个 GPU 小时。正如我在关于 CPU、GPU 和 TPU 的文章中讨论的,理解 AI 工作负载需要什么至关重要。来自这些模型的向量嵌入需要特殊的存储和检索系统。实时推理需要亚毫秒级的查询速度。传统的基于行的存储和 B 树索引根本不是为此而构建的。

\

AI 原生数据库:为机器学习而构建

AI 的兴起创造了一个新类别:AI 原生数据库。这些系统从头开始构建,以处理机器学习所需的内容。

向量数据库:现代 AI 的基础

向量数据库可能代表了自 NoSQL 出现以来数据库技术最大的创新。它们将数据存储为高维向量(通常为 768 到 4096 维),并允许你使用近似最近邻(ANN)技术按相似性进行搜索。

领先的向量数据库解决方案

| 数据库 | 类型 | 主要特性 | 主要用例 | |----|----|----|----| | Pinecone | 云原生 | 托管服务、实时更新 | 生产 RAG 系统 | | Weaviate | 混合 | GraphQL API、模块化架构 | 多模态搜索 | | Milvus | 开源 | 分布式、GPU 加速 | 大规模嵌入 | | Qdrant | 开源 | 基于 Rust、有效负载过滤 | 过滤向量搜索 | | pgvector | PostgreSQL 扩展 | SQL 兼容性、ACID 保证 | 混合工作负载 |

向量数据库的工作方式与传统系统截然不同:

\

特征存储:连接训练和推理

特征存储解决了 ML 运营中的一个大问题:训练-服务偏差。它们为特征工程提供单一位置,并确保离线模型训练和在线推理保持一致。

Tecton、Feast 和 AWS SageMaker Feature Store 等公司在这个领域开创了先河。特征存储通常包括:

  • 特征存储库:版本控制的特征定义
  • 离线存储:用于训练的历史特征(S3、BigQuery)
  • 在线存储:用于推理的低延迟特征(Redis、DynamoDB)
  • 特征服务器:用于提供特征的 API 层

基础设施即代码的使用对于管理这些复杂的特征存储部署变得至关重要。

图数据库和时间序列数据库

像 Neo4j 和 Amazon Neptune 这样的图数据库擅长处理关系密集型数据。像 TimescaleDB 和 InfluxDB 这样的时间序列数据库针对时间数据模式进行优化。这些专门的系统处理传统 RDBMS 难以应对的工作负载。

量子计算转变

虽然 AI 原生数据库正在改变我们今天处理数据的方式,但量子计算承诺会带来更大的颠覆。大规模量子计算机仍需数年时间,但聪明的组织已经在准备他们的数据基础设施。

抗量子密码学:当务之急

量子计算对数据库最紧迫的影响是安全性。量子计算机最终将通过 Shor 算法破解当前的加密,如 RSA 和 ECC。这对加密数据库和备份存档构成真正的威胁。正如我在关于后量子密码学的文章中探讨的,我们现在需要为抗量子安全做准备。

后量子密码学算法

| 算法 | 标准 | 类型 | 密钥大小 | 状态 | |----|----|----|----|----| | ML-KEM (CRYSTALS-Kyber) | FIPS 203 | 密钥封装 | ~1KB | 2024年8月发布 | | ML-DSA (CRYSTALS-Dilithium) | FIPS 204 | 数字签名 | ~2KB | 2024年8月发布 | | SLH-DSA (SPHINCS+) | FIPS 205 | 数字签名 | ~1KB | 2024年8月发布 | | FN-DSA (FALCON) | FIPS 206 | 数字签名 | ~1KB | 2024年草案 |

领先的数据库供应商开始添加抗量子加密:

  • PostgreSQL 17+:对后量子 TLS 的实验性支持
  • MongoDB Atlas:测试用于客户端加密的 CRYSTALS-Kyber
  • Oracle Database 23c:混合量子-经典加密方案

量子加速查询优化

比安全挑战更令人兴奋的是量子计算改变数据库查询优化的潜力。Grover 算法为非结构化搜索提供二次加速,而量子退火对复杂优化问题看起来很有前景。

\ IBM 的量子研究表明,对于某些图数据库查询,量子算法可以获得指数级加速。这些优势仅适用于特定问题类型,但它们暗示了一个量子协处理器加速数据库操作的未来。

混合架构:实用路径

我们看到的不是替换所有东西,而是结合传统、AI 原生和量子就绪系统的混合数据库架构。正如我在关于 AI 代理架构的文章中讨论的,现代应用需要复杂的数据层集成来支持代理工作流。

\

使用多个数据库

现代应用越来越多地使用多语言持久化,为每项工作选择合适的数据库:

  • 运营数据:带 pgvector 的 PostgreSQL 用于混合工作负载
  • 会话数据:带向量相似性插件的 Redis
  • 分析:用于 OLAP 的 ClickHouse 或 DuckDB
  • 嵌入:用于语义搜索的专用向量数据库
  • 图关系:Neo4j 或 Amazon Neptune
  • 时间序列:TimescaleDB 或 InfluxDB

构建面向未来的数据库系统

在为 AI 和量子就绪设计数据库系统时,以下是要遵循的实用指南:

1. 今天就开始使用量子安全加密

不要等待量子计算机到来。现在就使用结合经典和抗量子算法的混合方案添加后量子密码学。"现在收获,稍后解密"的威胁是真实的。理解 SSL 证书安全中的信任链为你添加抗量子密码层提供了基础。

2. 逐步添加向量搜索

你不需要替换现有的数据库。从通过 pgvector 等扩展添加向量搜索开始,或者引入专用向量数据库进行语义搜索。对于在 Kubernetes 中运行 GPU 工作负载的组织,高效的资源分配很重要。查看我的 NVIDIA MIG 与 GPU 优化指南,以更好地使用 GPU。

3. 投资特征工程基础设施

对于认真的 ML 部署,特征存储不再是可选的。它们解决了特征一致性、发现和重用方面的实际问题。从像 Feast 这样的开源解决方案开始,然后在运营负担变得太高时转向企业平台。

4. 为多种工作负载类型设计

你的架构应该处理事务性和分析性查询、结构化和非结构化数据、批处理和实时处理。像 DuckDB 这样的工具正在模糊 OLTP 和 OLAP 之间的界限。

5. 使用 AI 特定指标进行监控

像 QPS 和 P99 延迟这样的传统数据库指标仍然重要,但 AI 工作负载需要更多:嵌入生成时间、向量索引新鲜度、相似性搜索召回率和特征服务延迟。现代自动化平台正在演进,以更好地支持 AI 基础设施可观测性。

当前状态:今天有什么可用于生产

2026 年初的数据库格局与几年前根本不同。以下是目前实际部署并在生产系统中运行的内容。

向量数据库成为主流

向量数据库已经超越概念验证。截至 2025 年底,通过主要 CDN 提供商的超过一半的网络流量使用后量子密钥交换。像 Cursor、Notion 和 Linear 这样的公司正在大规模运行向量数据库以支持其 AI 功能。主要参与者已经相当成熟:

Pinecone 以单位数毫秒延迟处理企业应用的生产工作负载。Qdrant 基于 Rust 的实现通过复杂的有效负载过滤提供低于 5 毫秒的查询时间。Milvus 支持大规模嵌入的 GPU 加速。ChromaDB 的 2025 年 Rust 重写带来了比原始 Python 版本 4 倍的性能改进。

传统数据库正在添加向量能力。PostgreSQL 的 pgvector 扩展让团队无需切换数据库就能添加语义搜索。MongoDB Atlas、SingleStore 和 Elasticsearch 都提供原生向量支持。趋势很明确:向量搜索正在成为标准功能,而不是专门的数据库类型。

后量子密码学部署开始

到 2025 年 10 月,Cloudflare 上超过一半的人类发起的流量受到后量子加密的保护。NIST 于 2024 年 8 月最终确定了第一个后量子标准,包括 CRYSTALS-Kyber、CRYSTALS-Dilithium、FALCON 和 SPHINCS+。这些算法的 FIPS 140-3 认证在 2025-2026 年时间线内可用。

主要数据库供应商正在实施抗量子加密。PostgreSQL 17+ 具有实验性的后量子 TLS 支持。MongoDB Atlas 正在测试用于客户端加密的 CRYSTALS-Kyber。Oracle Database 23c 提供混合量子-经典加密方案。政府截止日期正在迫使行动:美国联邦机构必须在 2035 年之前完成迁移,澳大利亚目标是 2030 年,欧盟根据应用设定 2030-2035 年截止日期。

"现在收获,稍后解密"的威胁是真实的。存储敏感数据的组织必须现在行动,而不是等待量子计算机到来。

特征存储成为标准基础设施

特征存储已经从锦上添花升级为生产 ML 的必需品。公司正在学习训练和推理之间的特征工程一致性不是可选的。像 Tecton、Feast 和 AWS SageMaker Feature Store 这样的平台正在被广泛采用,因为团队意识到跨离线训练和在线服务管理特征的运营复杂性。

活跃研究中的内容

除了生产部署,研究人员正在突破量子计算和数据库可能性的边界。

量子查询优化显示前景

研究人员已经证明量子计算可以加速特定的数据库优化问题。2016 年,Trummer 和 Koch 将多个查询优化映射到量子退火器,并在特定问题类别上实现了大约 1000 倍的经典算法加速,尽管仅限于小问题规模。

2022-2025 年的最新工作探索了基于门的量子计算机用于连接顺序优化和事务调度。Grover 算法为非结构化搜索提供二次加速。对于包含 N 个项目的数据库,经典搜索需要 N 次操作,而量子搜索大约需要 √N 次操作。IBM 的量子研究表明,某些图数据库查询可以实现指数级加速,尽管仅适用于特定问题类型。

这里的关键短语是"特定问题类别"。量子优势出现在组合优化问题上,如连接排序、索引选择和事务调度。通用数据库操作不会仅仅通过转移到量子硬件就自动获得加速。

量子启发算法今天有效

在我们等待实用量子计算机的同时,量子启发算法在经典硬件上运行并提供实际好处。这些技术使用叠加和退火等量子原理,而不需要实际的量子比特。

2025 年底发表的研究表明,量子启发优化可以通过同时检查多个执行路径来加速云数据库查询处理。这些方法使用张量网络架构和模拟退火来减少复杂分析操作的处理开销。

实际时间表看起来是这样的:量子启发算法现在已经可以用于生产,在经典硬件上运行。用于特定优化任务的混合量子-经典系统可能会在未来 5-7 年内出现,因为量子计算机达到 1000+ 个稳定量子比特。通用量子数据库加速仍需 10-15 年,如果它被证明实用的话。

你的行动计划

你今天做出的数据库决策将在未来几年内支持或限制你的能力。以下是基于当前技术而非炒作的合理做法。

对于 AI 工作负载: 现在就添加向量搜索功能。如果你使用 PostgreSQL,从 pgvector 开始。性能对大多数用例来说都很可靠,如果需要,你随时可以迁移到专用向量数据库。当你需要专用基础设施时,像 Pinecone 和 Qdrant 这样的工具已经可以用于生产。

对于安全: 在 2026 年实施后量子密码学。NIST 标准已经最终确定。像 OpenSSL、BoringSSL 和 Bouncy Castle 这样的库正在添加支持。在过渡期间使用结合经典和抗量子算法的混合方法。不要等待合规截止日期。

对于 ML 运营: 如果你在生产中运行模型,就投资特征存储基础设施。训练和服务之间的一致性问题只会随着规模扩大而恶化。开源 Feast 是一个很好的起点。当运营负担变得太高时,升级到托管平台。

对于架构: 拥抱多语言持久化。"一个数据库包打天下"的时代已经结束。使用 PostgreSQL 进行事务,使用专用向量数据库进行语义搜索,使用 ClickHouse 进行分析,使用 Redis 进行缓存。现代应用需要为每项工作使用正确的工具,通过精心设计的数据层连接。

结论

数据库世界正在经历自 NoSQL 运动以来最大的转变。AI 创造了围绕向量嵌入和相似性搜索构建的全新数据库类别。量子计算既是安全威胁又是优化机会。以下是基于研究和生产部署实际发生的情况:

向量数据库已经成熟。像 GaussDB-Vector 和 PostgreSQL-V 这样的系统展示了可用于生产的性能。像 Cursor、Notion 和 Linear 这样的公司大规模运行向量数据库。

后量子密码学已标准化。NIST 于 2024 年 8 月发布了最终标准。组织必须现在开始过渡以满足合规截止日期并防范"现在收获,稍后解密"攻击。

特征存储是标准基础设施。研究表明它们解决了 ML 运营中围绕特征一致性、发现和重用的关键问题。

量子查询优化仍处于研究阶段。尽管对特定问题类别有有希望的结果,但实际的量子数据库加速需要量子计算硬件的技术进步。

这一时刻的独特之处在于融合。我们不仅仅是添加新的数据库类型。我们正在重新思考数据库需要做什么。向量相似性搜索正变得与 SQL 连接一样基础。抗量子加密正在从理论转向必需。特征存储正在成为关键的 ML 基础设施。

在 AI 中成功的公司不仅仅是拥有更好模型的公司。它们是拥有支持快速迭代的数据基础设施的公司。理解你的工作负载需求并选择正确的工具比追逐趋势更重要。

你在 AI 工作负载方面面临什么挑战?你在为后量子密码学做准备吗?你如何看待向量搜索?数据库格局发展迅速,实践经验很重要。在下面分享你的想法,或查看我关于 AI 基础设施、数据架构和量子计算的其他文章。

数据库的未来是混合的、智能的和量子感知的。技术已经存在。问题是你是否准备好使用它。

\

市场机遇
Sleepless AI 图标
Sleepless AI实时价格 (AI)
$0.04011
$0.04011$0.04011
+1.33%
USD
Sleepless AI (AI) 实时价格图表
免责声明: 本网站转载的文章均来源于公开平台,仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利,请联系 [email protected] 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证,并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考,不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。