讓 Claude Code 連續寫三個小時的程式，不停下來

這支 Reels 紀錄的是一個亂玩的 project — 有前後端的 prototype，整包 spec 跟 acceptance criteria 寫好之後，丟給 agent 自己去跑。

實際上是分兩段：第一段跑了 1 小時 43 分，把我當天的 usage 額度燒光；換帳號接著跑第二段，又跑了 1 小時 19 分。第二段主要在補 E2E test — 因為這是亂玩的 project，前期我 spec 轉 test case 沒轉得很完整，有些 case 沒做對，有些卡進了 defer queue，後面再讓它補一輪 😭

即使是這樣的條件，agent 整體還是一路自己 plan、implement、跑 E2E test、寫 hand-off，完全沒人為介入，跑完才來找我做最後驗收。

這套流程最適合的場景就是長時間任務 — 打 prototype、做 MVP、實作一個全新的 feature。這類任務的特性是：方向相對明確、acceptance criteria 可以提前寫死、不太會卡在歷史 codebase 的奇怪 constraint 上，agent 可以一路跑下去而不需要中斷問人。

真正決定產出可不可用的，是這三件事

跑完之後最有感的不是「它真的能跑三小時」這件事，而是要讓這套流程穩定運作，模型本身已經不是瓶頸。

1. 跨 session 的 context 傳遞

長時間執行最大的敵人是 context 累積，到某個臨界點一定會做 compaction，準確率就會掉。解法是 — 即使在同一個 session 裡，也要用「跨 session」的方式去設計。

每完成一個 feature，就把當下的決定、改動、未解問題、下一步寫進一個 machine-readable 的 hand-off log。下一個 feature 開始時，從這個 log 重新讀進來，而不是從污染的 context 繼續 — 把 context window 當 RAM，filesystem 當 disk。

2. 自己設計的 scaffolding

不能讓 agent 隨意走它想走的路。

開發類型、任務類型不一樣，scaffolding 也會長得不一樣 — 沒有一套通用的範本。但結構上要綁死的東西是一樣的：planning 用一套 skill、implementing 用一套、reviewing 一定要換另一個 agent（agent 自評永遠太正面）、E2E test 又是另一套。每一步的 input、output、acceptance criteria 都要明確，不留空間給 agent 自己詮釋。

scaffolding 寫一次可以跑很多次 — 這是現在最該投資的東西。

3. First-pass acceptance rate

Martin Fowler 在《reduce friction ai》裡面提到：與其追蹤「time to first output」，不如追蹤「first-pass acceptance rate」 — 第一次產出就直接可用的比例。

如果這個數字不夠高，跑得再快都是假的，最後還是要花同樣的時間在改 code。要把這個數字拉高，靠的是 spec 寫得夠精準、acceptance criteria 夠明確、測試項目有抓到關鍵情境。

像我這次第二段要回頭補 E2E，本質就是 first-pass 沒做夠。

人類的瓶頸要往前移、往後移

跑完這三個小時，更具體的感覺是 — coding agent 的速度已經快到一個地步，人類完全跟不上。也不需要跟上，幹嘛跟紡織機比紡織速度🤣

那人類的瓶頸就不能再放在「打字產出 code」這一段，要往前移到 spec 撰寫、設計決定，往後移到 review 跟驗收。實作那段交給 agent。

我覺得未來的開發型態會分成兩條軸線。

新功能開發這一邊，前期會花非常多時間在建構一份精確而且明確的 spec。什麼叫精確而且明確？至少要包含兩件事：完整的 User Experience 設計、以及最重要的 Acceptance Criteria。把這兩件事做夠細，後面 agent 就有辦法一路跑到底，第一次就交出可用的結果。

維護這一邊也會變成同一套流程；當一個需求或 bug 進來，系統會自動進入 fix 流程：

找出 Root Cause
設計幾個修正方案
設計對應的 End-to-End test

跑完之後甚至直接走自動部署 — 整個 fix 流程從進單到上線，中間人類只需要測試跟做最終決策。

這兩條軸線指向同一件事 — 嚴謹度沒有消失，只是從「寫 code 那一刻」移位到「定義問題」跟「驗收結果」這兩端。

這是 2026 年的 Rigor Relocation。