Software Engineering w/ Claude 2026:關鍵字與範式轉移
關鍵字
- Claude Managed Agents(multi-agent orchestration、Outcomes、Dreaming)
- Routines(higher-order prompts、async automation)
- Advisor Strategy(Opus 當 Sonnet 的顧問)
- Dreaming(agent 檢視過去 session、自動產生 memory 檔例如,
descent-playbook.md) - Async coding(多 session 並行、wake up to PRs)
- CI auto-fix(Claude prompting Claude Code)
- Code Review / Security Reviews / Remote Agents
- Claude Agent SDK(CLI / IDE / Desktop 同一底層)
- Claude Design(Opus 4.7 的視覺品味)
- Design for the next model
- 執行人下沉、組織結構變體(execs、managers 重新寫 code)
- 90% autonomous coding
範式轉移
列一下最該注意的——
從「單一 agent 長時間運行」到「無限 async sessions 並行」
desktop 同時跑多個 session、切換看哪個需要 input。長時間運行的價值不是「一個 session 撐更久」,而是「多個 session 同時在工作」。
研究方向:session 之間的 context relay 機制——當多個 session 並存時,handoff 不再是線性的,而是網狀的。
Dreaming:把 self-improvement 從 in-context 移到 offline batch
Agent 在 idle 時掃過去的 session、產生新 memory(playbook.md)。Anthropic 用的 artifact 是 markdown playbook,不是結構化 memory store。研究實測 task completion rate 提升約 6 倍。
研究方向:Strategic Memory——把「什麼有效、為什麼、在什麼條件下」沉澱成可重用的 causal lessons。Dreaming 是 Anthropic 的官方產品形態,但記什麼、怎麼避免雜訊污染未來 session,仍在研究中、競爭中。
Outcome-driven 取代 step-driven
Outcomes 讓你定義「成功長什麼樣」,agent 自己迭代達成。架構上有獨立的 grader agent,在自己的 context window 裡評分,不被主 agent 的推理污染。Anthropic 內部測試:相較純 prompting,task success 提升約 10 個百分點。
研究方向:Rigor Relocation——engineering rigor 從中間執行層繼續往上游移動,從 spec 移到 outcome 定義。
Routines = higher-order prompts
不手動寫 prompt 給 agent,改成「寫一個 routine,routine 自己決定什麼時候 prompt agent」。
研究方向:三層 agent optimization 模型——
- human edits(一般 prompting)
- agent self-edits with fixed logic(Routines)
- meta agent 自我修改(Dreaming + CI auto-fix)
Advisor Strategy:模型階層化呼叫
Sonnet 跑主要任務、需要時 call Opus 當顧問。實測:benchmark 更高、cost 更低(研究案例做到 5x 成本降低達到 frontier model 品質)。
Context engineering 從單模型內部問題,變成跨模型路由問題。
研究方向:Harness Engineering 的範疇擴大——不只是單一 agent 的 harness,而是 agent 之間的調度與成本/品質取捨。
PR 永遠看不到紅 X
Claude 自己 prompt Claude Code 去修 CI。Agent prompting agent 變成預設工作流,不是新奇實驗。
研究方向:meta agent 的產品形態——第三層的自我修改機制具體長什麼樣、邊界在哪、什麼時候該介入。
Code Review 從人工變成基礎設施
Anthropic 全公司每個 team 都用 Claude Code Review。Security Reviews 也同樣路徑。
研究方向:Code Review Node Map——人專注 L1 Intent,L2 到 L4 由 agent 分層處理。conceptual review 取代 line-by-line review 的工作流。
2026 help! I need some somebody help!
