预测是对未知事件的推断。识别是对已知模式的匹配。预测是对未知事件的推断。识别是对已知模式的匹配。

从第一性原理出发：从AI 底层逻辑到AI Trading

作者：Jinsehot

来源：Jinsehot

2026/01/05 15:23

阅读时长 27 分钟

如需对本内容提供反馈或相关疑问，请通过邮箱 [email protected] 联系我们。

作者：Tinkle 来源：X，@Web3Tinkle

一、大模型的底层逻辑

在讨论 AI 交易之前，有必要把大模型的计算本质讲清楚。

很多人把 LLM 当黑箱，觉得它"理解"了语言，能"思考"问题。实际上拆开来看，就是一套向量运算。

【核心思想：用向量表示一切】

人类用词汇和语法表达意义。机器不认识词汇，只认识数字。

大模型的第一步，是把离散的 token（可以理解为词或子词）映射到连续的向量空间。每个 token 对应一个高维向量，通常是 4096 维甚至更高。

"今天" → [0.12, -0.45, 0.78, 0.23, ...]（4096 个数字）

"天气" → [0.34, -0.12, 0.56, 0.89, ...]（4096 个数字）

这个映射是通过 embedding 表学习得到的。训练过程中，语义相近的词会被映射到向量空间中相近的位置。"国王"和"女王"的向量距离近，"国王"和"苹果"的向量距离远。

这不是人工设定的规则，是模型从海量文本中自己学出来的。

【核心计算：向量相似度】

有了向量表示，下一个问题是：怎么让模型知道词与词之间的关系？

Transformer 的答案是 Self-Attention 机制。

对于序列中的每个位置，模型会问一个问题：我应该关注序列中的哪些其他位置？

具体计算：

Q = X · W_q （Query：我在找什么）

K = X · W_k （Key：我能提供什么）

V = X · W_v （Value：我的实际内容）

Attention(Q, K, V) = softmax(Q · Kᵀ / √d) · V

Q · Kᵀ 是点积运算。两个向量越相似（指向相近的方向），点积越大。这就是在计算：当前位置的 Query 和其他位置的 Key 有多匹配。

softmax 把这些匹配分数归一化成概率分布。然后用这个分布对 Value 做加权求和。

结果是：每个位置都聚合了序列中与它相关的信息，相关性由向量相似度决定。

【堆叠与非线性】

单层 attention 表达能力有限。Transformer 把多层 attention 堆叠起来，每层之后接一个前馈网络（FFN）：

FFN(x) = activation(x · W_1) · W_2

activation 是非线性函数（ReLU、GELU、SwiGLU 等）。没有非线性，多层线性变换等价于单层，模型就没有深度可言。

DeepSeek、Qwen 等模型用了 MoE（Mixture of Experts）架构：不是所有参数都参与每次计算，而是动态路由到部分专家网络。这是效率优化，不改变计算本质。

【输出：概率分布】

经过 N 层处理后，最后一层的向量再乘以词表矩阵，得到每个可能 token 的分数，softmax 归一化成概率分布。

采样或取最大概率，得到输出 token。然后把这个 token 加入输入序列，重复上述过程。这就是自回归生成。

【各家模型的差异】

DeepSeek：MoE 架构，Multi-head Latent Attention 压缩 KV cache，降低推理成本

Qwen：dense + MoE 双产品线，SwiGLU 激活函数

Claude：架构未公开，推测是优化过的 dense Transformer

Gemini：多模态原生设计，图像、音频、文本共享 attention

GPT-4：传闻 MoE，8 个专家每个 220B 参数

架构细节各异，但底层逻辑相同：

1. 把输入映射到向量空间

2. 通过点积计算向量间的相似度

3. 用相似度加权聚合信息

4. 堆叠多层 + 非线性变换

5. 输出概率分布

没有"理解"，没有"思考"，就是高维空间里的几何运算。

这套逻辑能不能迁移到金融市场？下面展开。

二、大模型在"预测"还是在"识别模式"？

理解了上面的计算流程，一个关键问题浮出水面：

大模型到底在做什么？

表面上看，它在"预测下一个词"。给定"今天天气"，它输出"不错"的概率最高。这看起来像预测。

但拆开计算过程，它实际在做的是：

1. 把当前上下文编码成向量

2. 在参数空间中检索与这个向量最匹配的模式

3. 输出这个模式对应的概率分布

它不是在"预测未来会发生什么"，而是在"识别当前输入最像训练数据中的哪种模式"。

区别在哪？

预测是对未知事件的推断。识别是对已知模式的匹配。

大模型之所以有效，是因为自然语言有强统计规律。"我昨天去了"后面大概率是地点，"如果...那么..."后面大概率是结果。这些模式在训练数据中反复出现，模型学会了识别它们。

当你问 ChatGPT 一个问题，它不是在"思考答案"，而是在"找到与你的问题最匹配的模式，然后输出这个模式通常对应的回答"。

输出看起来像预测，底层是模式识别。

【迁移到金融市场】

把同样的逻辑用到金融市场，一个自然的想法是：

把市场数据编码成向量，检索历史上最相似的模式，输出后续走势的概率分布。

听起来可行。但这里有一个根本性的问题：

金融市场的"下一步走势"和自然语言的"下一个词"，统计特性完全不同。

【语言 vs 市场：统计规律的强度差异】

自然语言的统计规律极强。

给定足够的上下文，下一个词的熵（不确定性）很低。"中华人民共和"后面几乎一定是"国"。模型可以用很高的置信度输出。

金融市场的短期走势接近随机游走。

给定任何技术指标、基本面数据、链上数据，下一根 K 线涨还是跌的概率接近 50:50。信号被噪声淹没。

Pratas et al. (2023) 测试 LSTM 在 BTC 波动率预测上的表现：模型能产出更平滑的曲线，但对 large spikes 没有捕捉能力。模型学到的是"均值回归"这个弱模式，对真正重要的极端事件无能为力。

【非平稳性】

语言的统计规律相对稳定。"苹果"的语义一百年没怎么变。

市场结构持续演化。2021 年有效的规律 2024 年可能失效。监管环境、参与者结构、流动性分布都在变。你在历史数据上学到的模式，面对的是一个不断变化的分布。

【对抗性】

语言生成没有对手盘。你预测下一个词是"吃"，没人会故意让它变成"飞"。

金融市场是零和博弈。任何被识别出的有效模式，都会因为资金涌入而被套利掉。市场在对抗所有试图利用模式的人。

【结论】

大模型的能力是模式识别，不是预测。

在语言领域，模式识别的输出看起来像预测，因为语言模式足够稳定、足够强。

在金融市场，试图用同样的方法"预测涨跌"会失败，因为短期价格方向的模式太弱、太不稳定、太容易被对抗。

但这不意味着模式识别在金融领域没有价值。问题在于：应该识别什么模式？

三、换一个问题：Regime 识别

预测涨跌信噪比太低，但有一个相关问题信噪比高得多：

当前市场处于什么状态？

市场不是均质的，在不同 regime 之间切换：

• 低波动震荡：窄幅区间，方向不明

• 高波动震荡：剧烈波动但无趋势

• 单边上涨：持续走高，回调浅

• 单边下跌：持续走低，反弹弱

• 流动性危机：急跌伴随大规模清算

Regime 有持续性。趋势行情可能持续数天甚至数周，震荡市也是。时间尺度上的 autocorrelation 比单根 K 线涨跌显著得多。

Hamilton (1989) 的 regime-switching 模型开创了这个方向。Wang et al. (2020) 用 HMM 识别美股牛熊状态，在 2008 金融危机和 2020 COVID 崩盘期间有效规避大幅回撤。

他们的 alpha 来源不是预测涨跌，而是在高风险 regime 降低敞口。

四、技术路径：Market State Embedding

把 LLM 框架迁移过来：

LLM：token → 向量 → 相似度计算 → 输出分布

这里：市场状态 → 向量 → 相似度计算 → Regime 分类

【Encoder】

目标：高维异构特征压缩成低维稠密向量。约束：regime 相似的时刻向量距离近，regime 不同的时刻向量距离远。

参考 TS2Vec (Yue et al., AAAI 2022)，时序表示学习 SOTA，UCR/UEA 150+ 数据集上表现优异。

核心：hierarchical contrastive learning，多时间尺度对比损失，同时学 timestamp-level 和 instance-level 表示。

【训练】

对比学习定义正负样本：

正样本：两个时刻后续走势相似

负样本：两个时刻后续走势不同

也可参考 SoftCLT (ICLR 2024)，连续相似度替代硬标签。

【输出】

聚类法：历史 embedding 做 KMeans/GMM，得到 K 个 cluster，人工解读 regime 含义

检索法：当前 embedding 检索历史 Top-K 相似时刻，统计 regime 分布

检索法可解释性更强，能输出具体历史类比。

五、对比传统方法

【vs HMM】

HMM 假设观测值服从特定分布（通常 Gaussian），状态数预先指定。

神经网络不做分布假设，能处理高维输入，能发现数据中自然存在的 regime 结构。

【vs 技术指标】

ADX、RSI、布林带各自只捕捉一个维度，难以建模多因子交互，阈值人工设定。

端到端学习自动发现特征组合，阈值数据驱动。

六、应用场景

识别 regime 的价值在于策略选择和风险控制。

【策略匹配】

低波动震荡 → 网格

趋势行情 → 趋势跟踪

高波动震荡 → 降仓位

流动性危机 → 空仓

【风险管理】

Wang et al. 研究表明，regime-switching 策略的超额收益主要来自在 adverse regime 降低敞口。

规则：识别到高风险 regime，仓位砍半或清仓。不追求抓每一波，但要避开系统性风险。

七、NoFx：AI Trading 基础设施层

上面讲的是方法论。落地需要基础设施。

NoFx 不是"让 LLM 预测涨跌"的产品。定位是 AI Trading 的基础设施层。

【数据层】

加密货币市场数据极度碎片化。CEX API 格式各异，链上数据需要自己解析，衍生品数据分散在不同源头。

NoFx 做的第一件事：异构数据归一化，统一访问接口。

价格数据：

• 多周期 K 线 OHLCV：1m / 3m / 5m / 15m / 30m / 1h / 2h / 4h / 6h / 8h / 12h / 1d / 3d / 1w / 1M

• Tick 级逐笔成交

• 加权平均价（VWAP）

• 价格变动百分比：1m / 5m / 15m / 30m / 1h / 4h / 24h

成交量数据：

• 原始成交量及其 MA

• CVD（Cumulative Volume Delta）：累计主动买入量 - 累计主动卖出量

• CVD 多周期：5m / 15m / 1h / 4h / 24h

• Taker Buy/Sell Volume

• 成交量异常检测（相对 MA 的倍数）

• 量价背离指标

持仓数据：

• Open Interest 绝对值

• OI 变化量：1h / 4h / 24h

• OI 变化率：1h / 4h / 24h

• OI 加权价格

• 多空持仓人数比

• 大户持仓量占比

• 杠杆分布统计

资金费率：

• 当前 Funding Rate

• 预测 Funding Rate

• Funding Rate 历史序列

• 累计 Funding（24h / 7d / 30d）

清算数据：

• 多头爆仓量（USD）

• 空头爆仓量（USD）

• 爆仓多空比

• 大额清算事件（单笔 > 100K）

• 清算热力图（价格区间分布）

• 累计清算：1h / 4h / 24h

资金流向：

• 机构净流入（期货）

• 机构净流入（现货）

• 散户净流入（期货）

• 散户净流入（现货）

• 大单买入/卖出（阈值可配置）

• 交易所净流入/流出

• 鲸鱼地址异动

订单簿数据：

• 买一/卖一价格及挂单量

• 盘口价差（Spread）

• 深度快照：±0.1% / ±0.5% / ±1% / ±2%

• 买卖挂单不平衡度

• 大额挂单检测

• 订单簿斜率

技术指标：

• EMA：7 / 13 / 21 / 55 / 100 / 200

• SMA：20 / 50 / 100 / 200

• MACD：标准参数 + 自定义参数

• RSI：6 / 14 / 21

• Bollinger Bands：20 周期 2 倍标准差

• ATR：14 周期

• ADX / DMI

• Stochastic RSI

• OBV（On Balance Volume）

• Ichimoku Cloud

波动率：

• 已实现波动率：1h / 4h / 24h / 7d

• ATR 百分比

• 布林带宽度

• 价格振幅（High - Low）

数据更新站点，API 已开放：

https://nofxos.ai/api-docs

调用示例：

GET /api/quant-data?symbol=BTCUSDT

{

"netflow": {

"institution": {"future": 1200000, "spot": -500000},

"personal": {"future": -800000, "spot": 200000}

"oi": {

"current": 450000000,

"delta": {"1h": 1.2, "4h": 3.5, "24h": -2.1}

"price_change": {"1h": 0.8, "4h": 2.1, "24h": -1.5},

"cvd": {"5m": 150000, "1h": 890000, "4h": -2100000},

"funding_rate": 0.0001,

"liquidation": {"long": 1500000, "short": 800000}

}

【执行层】

交易所 API 差异不只在数据端。限价单、市价单、止损单的参数格式，仓位精度，杠杆配置，各家不同。

NoFx 抽象统一执行接口，当前支持任意交易所市场：

策略层不需要关心底层交易所。

【决策层】

数据层和执行层之上，提供 AI 决策框架：

市场数据 → 特征工程 → AI 推理 → 风控过滤 → 执行

支持的推理引擎：DeepSeek、Claude、GPT、Gemini、Qwen。

AI 在这里不是预测涨跌，而是做结构化决策：

• 多维度市场状态分析

• 候选标的筛选排序

• 仓位管理和风险评估

• 入场/出场条件判断

输出是结构化 JSON：决策、置信度、推理链（Chain of Thought）。每次决策的完整 context 全部记录。

【Regime 集成】

Regime 识别作为决策框架的模块：

市场数据 → Regime 识别 → 策略路由 → AI 决策 → 风控 → 执行

AI 做具体决策时收到当前 regime 判断作为 context。不同 regime 下，决策激进程度、仓位上限、止损宽度自动调整。

【为什么做】

AI Trading 的瓶颈不在模型，在工程。

一个能跑的系统需要：稳定数据流、低延迟执行、完善风控、可追溯日志、灵活策略配置。基础设施不存在，模型再强也没用。

市面上的 AI 交易产品大多是黑箱。用户不知道 AI 在想什么，不知道为什么开仓，不知道风控逻辑。出问题无从排查。

NoFx 的设计原则：透明、可控。

• 完整 Chain of Thought 日志

• 可配置风控（止损、仓位上限、杠杆限制）

• 开源，用户可自己部署

• Web UI 调参，不需要改代码

【AI Trading Layer】

长期目标：AI Trading 的标准化层。

三个支柱：

第一，传统量化的工程积累。订单管理、风控引擎、回测框架、执行算法——几十年量化交易沉淀的东西。没有这些，AI 是空中楼阁。

第二，前沿 AI 的推理能力。LLM 在结构化分析、多因子综合判断、自然语言交互上的表现，传统规则引擎做不到。但 AI 需要被正确约束和引导，不能让它自由发挥去"预测市场"。

第三，严格的数学框架。Regime 识别、向量相似度、对比学习——可验证、可解释的方法。拒绝"AI 说买就买"的玄学。

【平权化】

技术只是手段。NoFx 的终极目标：AI + 量化的平权化。

现状：量化交易门槛极高。要懂编程、懂金融、懂数据工程、懂风控，还要有资金接入机构级数据和执行通道。散户被排斥在外。

NoFx 提供可视化的 AI 交易编排系统：

• 不用写代码。策略逻辑、风控规则、AI 参数，Web UI 配置

• 不用懂量化。预置策略模板覆盖常见场景，调参数就行

• 不用自建基础设施。数据、执行、风控、日志，平台提供

• 完全透明。每次 AI 决策的输入、推理、输出，全部可查

一个从没接触过量化的人，应该能在 5分钟内配置好自己的 AI 策略，并理解它在做什么。

这不是降低专业性。是把专业能力封装成普通人能用的工具。

Excel 让每个人能做数据分析，不需要学 SQL。Figma 让每个人能做设计，不需要学 Photoshop。

NoFx 让每个人能编排 AI 交易策略，不需要成为量化工程师。

开源是必然选择。基础设施层必须可信、可审计。

八、局限性

过拟合：模型可能只是记住历史 pattern，泛化能力存疑。需要 out-of-sample 验证和滚动回测。

Regime 漂移：市场结构演化，历史 regime 特征可能不再适用。需要持续监控和定期重训练。

识别延迟：regime 切换识别必然滞后。敏感度和误报率之间取舍。

这不是预测圣杯。价值在于结构化的市场状态描述，辅助策略选择和风控。

九、关于我

做这件事的出发点是第一性原理。

不是看到"AI 交易"这个词就往上靠，而是先问：AI 的计算本质是什么？这个本质能迁移到金融场景吗？迁移过来应该解决什么问题？

答案是：向量相似度计算可以迁移，但目标不应该是预测涨跌，而是 regime 识别。

另一个出发点是用户导向。

技术再厉害，如果只有专业量化团队能用，意义有限。我希望做出来的东西，是一个完全不懂代码的交易者也能上手的产品。

专业性和易用性不矛盾。专业性体现在底层架构和方法论，易用性体现在产品交互。把复杂的东西做简单，比把简单的东西做复杂难得多。

用户的反馈验证了这个方向：

• GitHub 两个月 9500+ stars

• 一个半月内为 Binance 带来 1800+ 纯新增 KYC 首次交易用户

• 实际使用用户超过 9 万人

• 交易量持续增长

这些数字说明市场确实存在这个需求：普通交易者想要专业级的 AI 交易能力，但不想花几个月学量化编程。

NoFx 在做的事情，是把机构级的数据、执行、风控能力，封装成任何人都能用的产品。技术服务大众，不是技术服务少数人。

开源也是用户导向的选择。用户要能看到代码在做什么，要能自己部署，要能根据需求修改。黑箱产品在金融领域没有信任基础。

后续 Regime 识别模块验证有效后，同样会开源集成。

来源：金色财经

免责声明: 本网站转载的文章均来源于公开平台，仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利，请联系 [email protected] 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证，并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考，不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。