Andreessen Horowitz(a16z)宣布領投 Deeptune 的 4,300 萬美元 A 輪融資。Deeptune 的核心產品是「高擬真強化學習環境」——為 AI Agent 創建模擬真實專業工作流程的虛擬訓練場(類似遊戲訓練環境,但用於訓練 AI 完成真實工作任務)。a16z 的投資論文認為,RL 環境正在成為 AI 技術棧的下一個關鍵層:從靜態的人工標注資料集,轉向可大規模生成高品質訓練訊號的動態工程系統。微軟和 OpenAI 也在內部採用類似方法訓練工具使用 Agent。
📌 關鍵重點
- a16z 領投 4,300 萬美元 A 輪,看好 RL 環境成為 AI 技術棧關鍵層
- Deeptune 產品:模擬真實專業工作流程的高擬真 RL 訓練環境(AI Agent 的「訓練健身房」)
- 核心趨勢:從靜態人工標注資料集 → 動態工程化 RL 環境(資料問題轉化為算力問題)
- 微軟工具使用 Agent 和 OpenAI 電腦操作 Agent 都在使用類似 RL 方法訓練
- RL 環境市場目前幾乎是空白,是 AI 基礎設施的重要缺口
💡 創業者啟示
Deeptune 的融資揭示了 AI 訓練的下一個戰場:如何讓 AI Agent 學會在真實工作環境中完成複雜任務。問題的關鍵是「訓練資料」——你不能靠人工標注來教 AI 完成成千上萬種工作任務,而需要能自動生成高品質訓練訊號的環境。這個邏輯和 OpenAI 從監督學習轉向強化學習(RLHF→RLAIF)的路徑完全一致。對創業者的啟示:如果你在建立垂直 AI Agent,考慮如何建立自己的 RL 訓練環境——這將成為你模型效能的護城河。