NVIDIA 的 NeMo Data Designer 讓開發者能夠建立合成資料管道,用於 AI 蒸餾,無需擔心授權問題或大量資料集。(Read MoreNVIDIA 的 NeMo Data Designer 讓開發者能夠建立合成資料管道,用於 AI 蒸餾,無需擔心授權問題或大量資料集。(Read More

NVIDIA 發布開源工具以實現符合授權規範的 AI 模型訓練

閱讀時長 5 分鐘

NVIDIA 發布開源工具,實現授權安全的 AI 模型訓練

Peter Zhang 2026年2月5日 18:27

NVIDIA 的 NeMo Data Designer 讓開發者能夠為 AI 蒸餾建構合成資料管線,無需擔心授權問題或龐大的資料集。

NVIDIA 發布開源工具,實現授權安全的 AI 模型訓練

NVIDIA 發布了一個詳細的框架,用於建構符合授權規範的合成資料管線,解決了 AI 開發中最棘手的問題之一:當真實世界資料稀缺、敏感或法律地位不明確時,如何訓練專業化模型。

這個方法結合了 NVIDIA 的開源 NeMo Data Designer 與 OpenRouter 的可蒸餾端點,生成不會在後續引發合規問題的訓練資料集。對於因資料授權問題而陷入法律審查困境的企業來說,這可以將開發週期縮短數週。

為何現在如此重要

Gartner 預測,到 2030 年,合成資料可能會在 AI 訓練中超越真實資料。這並非誇大其詞——根據近期產業調查,63% 的企業 AI 領導者已將合成資料納入其工作流程。Microsoft 的超級智慧團隊在 2026 年 1 月下旬宣布,他們將使用類似技術搭配 Maia 200 晶片來開發下一代模型。

NVIDIA 解決的核心問題是:大多數強大的 AI 模型都帶有授權限制,禁止使用其輸出來訓練競爭模型。新管線在 API 層級強制執行「可蒸餾」合規性,這意味著開發者不會意外地用受法律限制的內容污染其訓練資料。

管線實際運作方式

技術工作流程將合成資料生成分為三層。首先,採樣器欄位注入可控的多樣性——產品類別、價格範圍、命名限制——而不依賴 LLM 的隨機性。其次,LLM 生成的欄位根據這些種子產生自然語言內容。第三,LLM 作為評審的評估會在輸出進入訓練集之前對準確性和完整性進行評分。

NVIDIA 的範例從小型種子目錄生成產品問答對。如果模型對來源資料中不存在的材料產生幻覺,毛衣描述可能會被標記為「部分準確」。這個品質關卡很重要:垃圾合成資料會產生垃圾模型。

管線在 Nemotron 3 Nano 上執行,這是 NVIDIA 的混合 Mamba MOE 推理模型,透過 OpenRouter 路由到 DeepInfra。一切都保持宣告式——架構在程式碼中定義,提示用 Jinja 範本化,輸出透過 Pydantic 模型結構化。

市場影響

合成資料生成市場在 2022 年達到 3.81 億美元,預計到 2028 年將達到 21 億美元,年成長率為 33%。對這些管線的控制越來越決定競爭地位,特別是在機器人和自動駕駛系統等物理 AI 應用中,真實世界訓練資料收集成本高達數百萬美元。

對開發者來說,直接價值在於繞過傳統瓶頸:您不再需要龐大的專有資料集或冗長的法律審查來建構特定領域的模型。同樣的模式適用於企業搜尋、支援機器人和內部工具——任何您需要專業化 AI 但沒有專業化資料收集預算的地方。

完整的實作細節和程式碼可在 NVIDIA 的 GenerativeAIExamples GitHub 儲存庫中取得。

圖片來源:Shutterstock
  • nvidia
  • 合成資料
  • ai 訓練
  • nemo
  • 機器學習
免責聲明: 本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 [email protected] 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。

您可能也會喜歡

市場崩盤時最值得買入的加密貨幣:BlockDAG、SOL、Ondo Finance 與 Render 脫穎而出

市場崩盤時最值得買入的加密貨幣:BlockDAG、SOL、Ondo Finance 與 Render 脫穎而出

2026年2月為加密貨幣投資者帶來艱難時期。Ethereum在跌破重要價格水平後下跌到2,320美元。Solana […] The post Best Crypto
分享
Coindoo2026/02/06 03:02
Sony Group Corporation (SONY) 股票:第三季創紀錄業績後擴大回購計劃

Sony Group Corporation (SONY) 股票:第三季創紀錄業績後擴大回購計劃

TLDR Sony 將股票回購計劃擴大至 1,500 億日圓,涵蓋最多 5,500 萬股 第三財季創下銷售額和營業收入紀錄,推動更高
分享
Coincentral2026/02/06 03:01
Metaplanet 在日本和美國成立專注於 Bitcoin 的子公司

Metaplanet 在日本和美國成立專注於 Bitcoin 的子公司

這篇文章「Metaplanet 在日本和美國成立以比特幣為重點的子公司」發表於 BitcoinEthereumNews.com。Metaplanet (3350),日本最大的比特幣 BTC$116,183.54 儲備公司表示,它成立了兩家子公司——一家在日本,一家在美國——並購買了 bitcoin.jp 域名,以加強其對這一最大加密貨幣的承諾。Bitcoin Japan Inc. 將設在東京,管理一系列與比特幣相關的媒體、會議和線上平台,包括互聯網域名和 Bitcoin Magazine Japan。美國子公司 Metaplanet Income Corp. 將設在邁阿密,專注於從比特幣相關金融產品(包括衍生品)中獲取收入,該公司在 X 平台上發文表示。Metaplanet 指出,它在 2024 年第四季度推出了比特幣收入生成業務,並旨在通過新子公司進一步擴大這些業務。這兩家全資子公司部分由 Metaplanet CEO Simon Gerovich 領導。本月早些時候,該公司將其比特幣持有量增加到超過 20,000 BTC。根據 BitcoinTreasuries 數據,它目前是世界第六大比特幣儲備公司,資產負債表上有 20,136 BTC。領先的公司 Strategy (MSTR) 擁有 638,985 BTC。這些子公司的成立緊隨該公司宣布計劃通過國際股票銷售籌集淨額 2041 億日元(14 億美元)以增強其 BTC 持有量之後。Metaplanet 股票在週三下跌了 1.16%。來源:https://www.coindesk.com/business/2025/09/17/metaplanet-sets-up-u-s-japan-subsidiaries-buys-bitcoin-jp-domain-name
分享
BitcoinEthereumNews2025/09/18 06:12