作者:Tinkle 来源:X,@Web3Tinkle
在讨论 AI 交易之前,有必要把大模型的计算本质讲清楚。
很多人把 LLM 当黑箱,觉得它"理解"了语言,能"思考"问题。实际上拆开来看,就是一套向量运算。
人类用词汇和语法表达意义。机器不认识词汇,只认识数字。
大模型的第一步,是把离散的 token(可以理解为词或子词)映射到连续的向量空间。每个 token 对应一个高维向量,通常是 4096 维甚至更高。
"今天" → [0.12, -0.45, 0.78, 0.23, ...](4096 个数字)
"天气" → [0.34, -0.12, 0.56, 0.89, ...](4096 个数字)
这个映射是通过 embedding 表学习得到的。训练过程中,语义相近的词会被映射到向量空间中相近的位置。"国王"和"女王"的向量距离近,"国王"和"苹果"的向量距离远。
这不是人工设定的规则,是模型从海量文本中自己学出来的。
有了向量表示,下一个问题是:怎么让模型知道词与词之间的关系?
Transformer 的答案是 Self-Attention 机制。
对于序列中的每个位置,模型会问一个问题:我应该关注序列中的哪些其他位置?
具体计算:
Q = X · W_q (Query:我在找什么)
K = X · W_k (Key:我能提供什么)
V = X · W_v (Value:我的实际内容)
Attention(Q, K, V) = softmax(Q · Kᵀ / √d) · V
Q · Kᵀ 是点积运算。两个向量越相似(指向相近的方向),点积越大。这就是在计算:当前位置的 Query 和其他位置的 Key 有多匹配。
softmax 把这些匹配分数归一化成概率分布。然后用这个分布对 Value 做加权求和。
结果是:每个位置都聚合了序列中与它相关的信息,相关性由向量相似度决定。
单层 attention 表达能力有限。Transformer 把多层 attention 堆叠起来,每层之后接一个前馈网络(FFN):
FFN(x) = activation(x · W_1) · W_2
activation 是非线性函数(ReLU、GELU、SwiGLU 等)。没有非线性,多层线性变换等价于单层,模型就没有深度可言。
DeepSeek、Qwen 等模型用了 MoE(Mixture of Experts)架构:不是所有参数都参与每次计算,而是动态路由到部分专家网络。这是效率优化,不改变计算本质。
经过 N 层处理后,最后一层的向量再乘以词表矩阵,得到每个可能 token 的分数,softmax 归一化成概率分布。
采样或取最大概率,得到输出 token。然后把这个 token 加入输入序列,重复上述过程。这就是自回归生成。
DeepSeek:MoE 架构,Multi-head Latent Attention 压缩 KV cache,降低推理成本
Qwen:dense + MoE 双产品线,SwiGLU 激活函数
Claude:架构未公开,推测是优化过的 dense Transformer
Gemini:多模态原生设计,图像、音频、文本共享 attention
GPT-4:传闻 MoE,8 个专家每个 220B 参数
架构细节各异,但底层逻辑相同:
1. 把输入映射到向量空间
2. 通过点积计算向量间的相似度
3. 用相似度加权聚合信息
4. 堆叠多层 + 非线性变换
5. 输出概率分布
没有"理解",没有"思考",就是高维空间里的几何运算。
这套逻辑能不能迁移到金融市场?下面展开。
理解了上面的计算流程,一个关键问题浮出水面:
大模型到底在做什么?
表面上看,它在"预测下一个词"。给定"今天天气",它输出"不错"的概率最高。这看起来像预测。
但拆开计算过程,它实际在做的是:
1. 把当前上下文编码成向量
2. 在参数空间中检索与这个向量最匹配的模式
3. 输出这个模式对应的概率分布
它不是在"预测未来会发生什么",而是在"识别当前输入最像训练数据中的哪种模式"。
区别在哪?
预测是对未知事件的推断。识别是对已知模式的匹配。
大模型之所以有效,是因为自然语言有强统计规律。"我昨天去了"后面大概率是地点,"如果...那么..."后面大概率是结果。这些模式在训练数据中反复出现,模型学会了识别它们。
当你问 ChatGPT 一个问题,它不是在"思考答案",而是在"找到与你的问题最匹配的模式,然后输出这个模式通常对应的回答"。
输出看起来像预测,底层是模式识别。
把同样的逻辑用到金融市场,一个自然的想法是:
把市场数据编码成向量,检索历史上最相似的模式,输出后续走势的概率分布。
听起来可行。但这里有一个根本性的问题:
金融市场的"下一步走势"和自然语言的"下一个词",统计特性完全不同。
自然语言的统计规律极强。
给定足够的上下文,下一个词的熵(不确定性)很低。"中华人民共和"后面几乎一定是"国"。模型可以用很高的置信度输出。
金融市场的短期走势接近随机游走。
给定任何技术指标、基本面数据、链上数据,下一根 K 线涨还是跌的概率接近 50:50。信号被噪声淹没。
Pratas et al. (2023) 测试 LSTM 在 BTC 波动率预测上的表现:模型能产出更平滑的曲线,但对 large spikes 没有捕捉能力。模型学到的是"均值回归"这个弱模式,对真正重要的极端事件无能为力。
语言的统计规律相对稳定。"苹果"的语义一百年没怎么变。
市场结构持续演化。2021 年有效的规律 2024 年可能失效。监管环境、参与者结构、流动性分布都在变。你在历史数据上学到的模式,面对的是一个不断变化的分布。
语言生成没有对手盘。你预测下一个词是"吃",没人会故意让它变成"飞"。
金融市场是零和博弈。任何被识别出的有效模式,都会因为资金涌入而被套利掉。市场在对抗所有试图利用模式的人。
大模型的能力是模式识别,不是预测。
在语言领域,模式识别的输出看起来像预测,因为语言模式足够稳定、足够强。
在金融市场,试图用同样的方法"预测涨跌"会失败,因为短期价格方向的模式太弱、太不稳定、太容易被对抗。
但这不意味着模式识别在金融领域没有价值。问题在于:应该识别什么模式?
预测涨跌信噪比太低,但有一个相关问题信噪比高得多:
当前市场处于什么状态?
市场不是均质的,在不同 regime 之间切换:
• 低波动震荡:窄幅区间,方向不明
• 高波动震荡:剧烈波动但无趋势
• 单边上涨:持续走高,回调浅
• 单边下跌:持续走低,反弹弱
• 流动性危机:急跌伴随大规模清算
Regime 有持续性。趋势行情可能持续数天甚至数周,震荡市也是。时间尺度上的 autocorrelation 比单根 K 线涨跌显著得多。
Hamilton (1989) 的 regime-switching 模型开创了这个方向。Wang et al. (2020) 用 HMM 识别美股牛熊状态,在 2008 金融危机和 2020 COVID 崩盘期间有效规避大幅回撤。
他们的 alpha 来源不是预测涨跌,而是在高风险 regime 降低敞口。
把 LLM 框架迁移过来:
LLM:token → 向量 → 相似度计算 → 输出分布
这里:市场状态 → 向量 → 相似度计算 → Regime 分类
目标:高维异构特征压缩成低维稠密向量。约束:regime 相似的时刻向量距离近,regime 不同的时刻向量距离远。
参考 TS2Vec (Yue et al., AAAI 2022),时序表示学习 SOTA,UCR/UEA 150+ 数据集上表现优异。
核心:hierarchical contrastive learning,多时间尺度对比损失,同时学 timestamp-level 和 instance-level 表示。
对比学习定义正负样本:
正样本:两个时刻后续走势相似
负样本:两个时刻后续走势不同
也可参考 SoftCLT (ICLR 2024),连续相似度替代硬标签。
聚类法:历史 embedding 做 KMeans/GMM,得到 K 个 cluster,人工解读 regime 含义
检索法:当前 embedding 检索历史 Top-K 相似时刻,统计 regime 分布
检索法可解释性更强,能输出具体历史类比。
HMM 假设观测值服从特定分布(通常 Gaussian),状态数预先指定。
神经网络不做分布假设,能处理高维输入,能发现数据中自然存在的 regime 结构。
ADX、RSI、布林带各自只捕捉一个维度,难以建模多因子交互,阈值人工设定。
端到端学习自动发现特征组合,阈值数据驱动。
识别 regime 的价值在于策略选择和风险控制。
低波动震荡 → 网格
趋势行情 → 趋势跟踪
高波动震荡 → 降仓位
流动性危机 → 空仓
Wang et al. 研究表明,regime-switching 策略的超额收益主要来自在 adverse regime 降低敞口。
规则:识别到高风险 regime,仓位砍半或清仓。不追求抓每一波,但要避开系统性风险。
上面讲的是方法论。落地需要基础设施。
NoFx 不是"让 LLM 预测涨跌"的产品。定位是 AI Trading 的基础设施层。
加密货币市场数据极度碎片化。CEX API 格式各异,链上数据需要自己解析,衍生品数据分散在不同源头。
NoFx 做的第一件事:异构数据归一化,统一访问接口。
价格数据:
• 多周期 K 线 OHLCV:1m / 3m / 5m / 15m / 30m / 1h / 2h / 4h / 6h / 8h / 12h / 1d / 3d / 1w / 1M
• Tick 级逐笔成交
• 加权平均价(VWAP)
• 价格变动百分比:1m / 5m / 15m / 30m / 1h / 4h / 24h
成交量数据:
• 原始成交量及其 MA
• CVD(Cumulative Volume Delta):累计主动买入量 - 累计主动卖出量
• CVD 多周期:5m / 15m / 1h / 4h / 24h
• Taker Buy/Sell Volume
• 成交量异常检测(相对 MA 的倍数)
• 量价背离指标
持仓数据:
• Open Interest 绝对值
• OI 变化量:1h / 4h / 24h
• OI 变化率:1h / 4h / 24h
• OI 加权价格
• 多空持仓人数比
• 大户持仓量占比
• 杠杆分布统计
资金费率:
• 当前 Funding Rate
• 预测 Funding Rate
• Funding Rate 历史序列
• 累计 Funding(24h / 7d / 30d)
清算数据:
• 多头爆仓量(USD)
• 空头爆仓量(USD)
• 爆仓多空比
• 大额清算事件(单笔 > 100K)
• 清算热力图(价格区间分布)
• 累计清算:1h / 4h / 24h
资金流向:
• 机构净流入(期货)
• 机构净流入(现货)
• 散户净流入(期货)
• 散户净流入(现货)
• 大单买入/卖出(阈值可配置)
• 交易所净流入/流出
• 鲸鱼地址异动
订单簿数据:
• 买一/卖一价格及挂单量
• 盘口价差(Spread)
• 深度快照:±0.1% / ±0.5% / ±1% / ±2%
• 买卖挂单不平衡度
• 大额挂单检测
• 订单簿斜率
技术指标:
• EMA:7 / 13 / 21 / 55 / 100 / 200
• SMA:20 / 50 / 100 / 200
• MACD:标准参数 + 自定义参数
• RSI:6 / 14 / 21
• Bollinger Bands:20 周期 2 倍标准差
• ATR:14 周期
• ADX / DMI
• Stochastic RSI
• OBV(On Balance Volume)
• Ichimoku Cloud
波动率:
• 已实现波动率:1h / 4h / 24h / 7d
• ATR 百分比
• 布林带宽度
• 价格振幅(High - Low)
数据更新站点,API 已开放:
https://nofxos.ai/api-docs
调用示例:
GET /api/quant-data?symbol=BTCUSDT
返回:
{
"netflow": {
"institution": {"future": 1200000, "spot": -500000},
"personal": {"future": -800000, "spot": 200000}
},
"oi": {
"current": 450000000,
"delta": {"1h": 1.2, "4h": 3.5, "24h": -2.1}
},
"price_change": {"1h": 0.8, "4h": 2.1, "24h": -1.5},
"cvd": {"5m": 150000, "1h": 890000, "4h": -2100000},
"funding_rate": 0.0001,
"liquidation": {"long": 1500000, "short": 800000}
}
交易所 API 差异不只在数据端。限价单、市价单、止损单的参数格式,仓位精度,杠杆配置,各家不同。
NoFx 抽象统一执行接口,当前支持任意交易所市场:
策略层不需要关心底层交易所。
数据层和执行层之上,提供 AI 决策框架:
市场数据 → 特征工程 → AI 推理 → 风控过滤 → 执行
支持的推理引擎:DeepSeek、Claude、GPT、Gemini、Qwen。
AI 在这里不是预测涨跌,而是做结构化决策:
• 多维度市场状态分析
• 候选标的筛选排序
• 仓位管理和风险评估
• 入场/出场条件判断
输出是结构化 JSON:决策、置信度、推理链(Chain of Thought)。每次决策的完整 context 全部记录。
Regime 识别作为决策框架的模块:
市场数据 → Regime 识别 → 策略路由 → AI 决策 → 风控 → 执行
AI 做具体决策时收到当前 regime 判断作为 context。不同 regime 下,决策激进程度、仓位上限、止损宽度自动调整。
AI Trading 的瓶颈不在模型,在工程。
一个能跑的系统需要:稳定数据流、低延迟执行、完善风控、可追溯日志、灵活策略配置。基础设施不存在,模型再强也没用。
市面上的 AI 交易产品大多是黑箱。用户不知道 AI 在想什么,不知道为什么开仓,不知道风控逻辑。出问题无从排查。
NoFx 的设计原则:透明、可控。
• 完整 Chain of Thought 日志
• 可配置风控(止损、仓位上限、杠杆限制)
• 开源,用户可自己部署
• Web UI 调参,不需要改代码
长期目标:AI Trading 的标准化层。
三个支柱:
第一,传统量化的工程积累。订单管理、风控引擎、回测框架、执行算法——几十年量化交易沉淀的东西。没有这些,AI 是空中楼阁。
第二,前沿 AI 的推理能力。LLM 在结构化分析、多因子综合判断、自然语言交互上的表现,传统规则引擎做不到。但 AI 需要被正确约束和引导,不能让它自由发挥去"预测市场"。
第三,严格的数学框架。Regime 识别、向量相似度、对比学习——可验证、可解释的方法。拒绝"AI 说买就买"的玄学。
技术只是手段。NoFx 的终极目标:AI + 量化的平权化。
现状:量化交易门槛极高。要懂编程、懂金融、懂数据工程、懂风控,还要有资金接入机构级数据和执行通道。散户被排斥在外。
NoFx 提供可视化的 AI 交易编排系统:
• 不用写代码。策略逻辑、风控规则、AI 参数,Web UI 配置
• 不用懂量化。预置策略模板覆盖常见场景,调参数就行
• 不用自建基础设施。数据、执行、风控、日志,平台提供
• 完全透明。每次 AI 决策的输入、推理、输出,全部可查
一个从没接触过量化的人,应该能在 5分钟内配置好自己的 AI 策略,并理解它在做什么。
这不是降低专业性。是把专业能力封装成普通人能用的工具。
Excel 让每个人能做数据分析,不需要学 SQL。Figma 让每个人能做设计,不需要学 Photoshop。
NoFx 让每个人能编排 AI 交易策略,不需要成为量化工程师。
开源是必然选择。基础设施层必须可信、可审计。
过拟合:模型可能只是记住历史 pattern,泛化能力存疑。需要 out-of-sample 验证和滚动回测。
Regime 漂移:市场结构演化,历史 regime 特征可能不再适用。需要持续监控和定期重训练。
识别延迟:regime 切换识别必然滞后。敏感度和误报率之间取舍。
这不是预测圣杯。价值在于结构化的市场状态描述,辅助策略选择和风控。
不是看到"AI 交易"这个词就往上靠,而是先问:AI 的计算本质是什么?这个本质能迁移到金融场景吗?迁移过来应该解决什么问题?
答案是:向量相似度计算可以迁移,但目标不应该是预测涨跌,而是 regime 识别。
技术再厉害,如果只有专业量化团队能用,意义有限。我希望做出来的东西,是一个完全不懂代码的交易者也能上手的产品。
专业性和易用性不矛盾。专业性体现在底层架构和方法论,易用性体现在产品交互。把复杂的东西做简单,比把简单的东西做复杂难得多。
用户的反馈验证了这个方向:
• GitHub 两个月 9500+ stars
• 一个半月内为 Binance 带来 1800+ 纯新增 KYC 首次交易用户
• 实际使用用户超过 9 万人
• 交易量持续增长
这些数字说明市场确实存在这个需求:普通交易者想要专业级的 AI 交易能力,但不想花几个月学量化编程。
NoFx 在做的事情,是把机构级的数据、执行、风控能力,封装成任何人都能用的产品。技术服务大众,不是技术服务少数人。
开源也是用户导向的选择。用户要能看到代码在做什么,要能自己部署,要能根据需求修改。黑箱产品在金融领域没有信任基础。
后续 Regime 识别模块验证有效后,同样会开源集成。
来源:金色财经


