算力即權力：韜(τ)定律、靈衢總線與 AI Agent 時代的「延遲稅」

2026 年 5 月 25 日，在上海舉辦的 IEEE 國際電路與系統研討會（ISCAS 2026）上，華為何庭波發表題為「半導體新路徑探索與實踐」的主旨演講，提出指導半導體產業發展的新原則——韜(τ)定律，並系統闡述了靈衢（Unified Bus）總線如何重構超節點互聯（詳見華為官方新聞稿）。新聞稿中的幾個數字值得先記住：過去六年基於該路徑已量產 381 款晶片；2026 年秋季麒麟將率先採用邏輯折疊；到 2031 年高端晶片電晶體密度有望達到 1.4 奈米製程同等水準——這不是某顆神秘晶片的爆料，而是產業對「幾何縮微走不動之後怎麼辦」的公開回答。

與此同時，開發者側正在經歷另一場更貼近錢包的風暴：Claude Code、Cursor Agent 與各類 Harness 把「寫程式」從一問一答，變成多輪推理 + 工具呼叫 + 長上下文 + 可 7×24 常駐的工作流。很多人這個月感到「API 帳單突然翻倍」，第一反應是模型漲價；但更常見的真相是：你已經在為 Agent 形態付「複利」——每一輪多出來的不僅是 token，還有等測試跑完、等 git status、等遠端 Runner 返回的空轉時間。

本文只回答一個問題：當 τ 定律試圖把電晶體密度與系統延遲「拉平」時，最先受益的是萬億參數訓練叢集，還是你我每天打開的 AI Agent？ 若你剛讀完站內的 ECC Harness 一文，或正在部署 OpenClaw 數位分身，下文會把「帳單上漲」和「晶片新聞」接到同一張因果圖上，並給你一份今天就能執行的帳單稽核清單。

三分鐘結論：

算力即權力

Agent 時代貴的往往不只是 FLOPS 單價，而是多輪往返疊加的「延遲稅」。

多輪 × I/O
τ 定律 ≠ 只造更密的芯

以時間(τ)縮微替代幾何縮微，需器件、電路、晶片、系統四層協同；靈衢負責拆通訊牆。

邏輯折疊
下一波爆發形態

常駐多 Agent、7×24 閘道、按 Runner 核時計費——而非更大的聊天視窗。

Harness 優先

0. 「算力即權力」：先建立論證框架

在討論 τ 定律之前，先把權力說清楚。這裡的權力不是政治隱喻，而是誰能穩定佔用低延遲算力，誰就能跑更重的 Agent 工作流：

雲廠商與晶片廠掌握叢集互聯與採購規模，決定訓練成本曲線；
平台方（模型 API、IDE 套件）掌握預設 Harness 與計費單位；
團隊與個人掌握 Runner 拓撲、規則裁剪與是否允許 7×24 常駐。

韜(τ)定律與靈衢屬於第一層武器；ECC、OpenClaw、雲 Mac Runner 屬於第三層武器。兩層之間的縫隙，就是大多數人感到「說服不了自己」的原因——你讀到了晶片新聞，但本月帳單仍由 Harness 輪次決定。下文用一條具體任務鏈，把縫隙填滿。

1. 為什麼今天的 AI Agent 特別「吃算力」？

很多人把 Claude Code 帳單上漲簡單歸因於「模型變貴了」。更貼近工程真相的解釋是：Agent 把一次對話拆成幾十次小推理，每一次都可能觸發讀檔案、跑測試、寫補丁、再讀 linter 輸出。你在 IDE 裡感受到的「它一直在幹活」，在系統視角是持續佔用推理佇列與 I/O 頻寬。

1.1 場景推演：一次「修單元測試失敗」要燒掉什麼？

假設你給 Agent 一句人話：「CI 裡 UserServiceTests 掛了，修到綠。」在 Claude Code / Cursor Agent 典型路徑下，往往不是 1 次回覆，而是 20–40 次微步驟，粗略可拆為：

定位：glob / grep 多個目錄，讀 3–8 個檔案片段進上下文（token 膨脹）。
假設：模型產生補丁，呼叫 write/edit 工具寫碟（I/O + 權限校驗）。
驗證：在本地或遠端 Runner 執行 npm test / xcodebuild test（延遲稅大頭：編譯 + 連結 + 測試可能數分鐘，期間模型可能空等或繼續讀日誌）。
迭代：測試仍紅則重複 2–3，直到綠或達到步數上限。
收尾：產生 commit message、更新 PR 描述、Hooks 寫會話記憶（若裝了 ECC）。

注意：真正貴的未必是「想」，而是「想一步就要摸一次磁碟、跑一次命令」。一次 8 分鐘的測試，在 Agent 迴圈裡可能疊加 3 次——你付的不僅是 8 分鐘雲 Mac 機時，還有期間多輪把日誌塞回上下文的 token。這就是為什麼同一句 prompt，網頁聊天可能 0.3 元量級，Agent 任務卻輕鬆上一個數量級（具體價格因套餐而異，此處強調結構差異，非報價承諾）。

1.2 三類成本：別只盯著 token 單價

把 Agent 帳單拆成三張子表，團隊討論會清醒很多：

Agent 任務成本拆解（工程視角）
成本類型	典型來源	誰控制	τ/靈衢能否短期改善
推理稅	模型 API、上下文長度、多輪思考	模型選型、Harness 裁剪、Rules	間接（叢集降本後 API 降價）
延遲稅	測試/建置、磁碟 I/O、跨機 SSH	Runner 位置、快取、並行策略	部分（互聯降延遲）；應用層更直接
常駐稅	7×24 Gateway、探針、Channels 輪詢	是否上 OpenClaw、機器是否休眠	幾乎無關晶片新聞

說服自己的第一步：先畫這三行，再決定是換 Opus、還是把 xcodebuild 挪到加拿大 M4 Runner、還是給 ECC 開 minimal Hook。只換模型不換拓撲，常常「更聰明但更慢更貴」。

對比傳統聊天機器人與 Agent 工作流，差異不在「更聰明」，而在工作形態：

單次聊天 vs Agent（Claude Code / Cursor Agent 類）
維度	網頁聊天	編碼 Agent
互動輪次	通常 1–5 輪	常見 15–50+ 輪/任務
工具 / 檔案 I/O	少	grep、test、build、git 高頻
上下文	對話歷史為主	倉庫級 + Harness 記憶（見 ECC）
執行形態	按需打開	可 7×24 常駐（見 OpenClaw）
帳單構成	主要是 token	token + 等待 + Runner 機時

這就是 Agent 時代的供需矛盾：應用層需求隨 Harness 成熟度指數上升（ECC 把「流程」產品化，OpenClaw 把「線上時長」產品化），而單機或單條 PCIe 鏈路的供給卻先撞在記憶體牆與通訊牆上。你付的錢裡，有一塊是模型推理，另一塊是「每次工具呼叫都要等資料搬完」——我們稱之為延遲稅。

1.3 Harness 為何讓需求「複利」而非線性增長？

裸用 Claude Code，你手動控制「何時讀檔案、何時跑測試」。裝上 ECC 類 Harness 後，會話開始/結束 Hooks、品質門、AgentShield、continuous learning會在背景額外觸發讀寫與掃描——這是用算力換一致性與安全。OpenClaw 則在另一個維度複利：Channel 訊息、定時任務、多外掛並發，把「線上」變成預設。

這不是說 Harness 不該裝，而是說：權力結構變了——以前是你決定何時燒算力；現在是規則與閘道在幫你自動燒。治理（Hook profile、權限分軌、Runner 隔離）和選晶片新聞一樣重要，只是前者本週就能改。

Harness 把一次需求拆成多輪；每輪的工具 I/O 往往比推理本身更吃「等」

2. 兩堵牆：PCIe 與傳統互聯為何拖累 Agent

據華為新聞稿，摩爾定律正面臨物理極限與經濟效益的雙重挑戰：幾何縮微放緩、電晶體成本紅利消退，而全球算力需求仍呈指數級攀升。資料中心裡，算力單元（CPU、NPU/GPU）與記憶體、儲存往往分佈在不同「島」上，經典瓶頸有兩類：

記憶體牆：算力在加速器上，權重與 KV cache 在 HBM/DRAM。大量研究顯示，資料搬運的能耗與延遲可超過計算本身（「memory wall」是體系結構教科書級命題）。大模型推理時，單次 token 產生若頻繁跨裝置取數，吞吐會斷崖式下跌——表現為「GPU 利用率不高，但就是在等」。
通訊牆：多卡訓練或超節點推理時，AllReduce、專家並行（MoE）、跨機 KV 共享都依賴互聯頻寬。PCIe 或碎片化協定下，「加卡不線性」是維運日常；訓練任務裡通訊佔比可達可觀比例，越大模型越痛。

2.1 PCIe、NVLink、CXL 與靈衢：解決的不是同一件事

把互聯方案放在一張表裡，避免「聽說靈衢很強」卻無法落到 Agent 場景：

互聯方向對比（概念層，非 Benchmark 排名）
方案	主要瞄準	對訓練叢集	對 Agent/Runner
PCIe	通用外設與加速卡掛載	頻寬/延遲常成瓶頸	間接；筆電與小型 Runner 常見
NVLink 等 GPU 互聯	多 GPU 卡間高頻寬	縮短 AllReduce 時間	個人開發者很少直接接觸
CXL	記憶體擴展與池化	增大有效記憶體容量	影響託管 Runner 規格與價格
靈衢（華為公開表述）	超節點統一記憶體編址、原生記憶體語意	壓低系統通訊時延	透過雲 API 延遲與單價滲漏

靈衢在新聞稿中的關鍵詞是「重構計算系統互聯協定」與「超節點」——目標不是再插一張更快的 PCIe 卡，而是讓 CPU、NPU、記憶體在語意上更接近同一台機器，從而減少拷貝與同步。對 Agent 開發者，這意味著：未來雲上「大記憶體 + 低延遲推理」的 SKU 可能更划算，但你今天仍要優化 SSH 跨洋 RTT。

2.2 兩堵牆如何傳導到筆電與雲 Mac？

傳導鏈可以寫成：

叢集記憶體牆/通訊牆 → 雲廠商推理服務成本與排隊延遲 → 模型 API 單價與速率限制 → Agent 每輪推理更貴或更慢；同時 Runner 側 若與模型區域不匹配（例如人在亞太、模型在美東、Mac Runner 在加西），每一次工具呼叫還多一層網路延遲稅。

這和開發者有什麼關係？當你把 Agent 的「手」放到遠端 Mac Runner或雲 CI 上時，相當於把兩堵牆的一部分搬到了網路 RTT上：模型在雲端，倉庫在 Runner，每一次 npm test 都是跨邊界往返。ECC 能優化 Harness 流程，但救不了物理互聯的上限；OpenClaw 的 7×24 閘道則把「等待」拉長到全天候——算力帳單從按次變成按月。

一個可操作的結論：Runner 與模型同區域、與開發者時區合理對齊，往往比「等 τ 定律落地」更立竿見影。Hashvps 客戶常把加拿大 M4 同時用於北美推理 API 與 Xcode 建置，就是在應用層做「延遲稅」優化，而不是等超節點普及。

τ 定律要兌現，必須把「搬資料」的時間壓進 τ 縮微曲線裡

3. 韜(τ)定律在講什麼？靈衢為何是「系統無感」的關鍵

據華為在 ISC AS 2026 的發布，韜(τ)定律提出以「時間(τ)縮微」替代「幾何縮微」作為半導體與電子系統演進的新指導原則——透過邏輯折疊（Logic Folding）等創新，持續壓縮訊號傳播時延，不斷提升電晶體密度，從而實現半導體與電子系統的持續演進。

通俗理解：摩爾定律時代大家比的是「在單位面積上塞更多電晶體」；τ 定律時代比的是「讓訊號跑完關鍵路徑的時間更短」——密度提升是結果，不是唯一手段。邏輯折疊可以理解為：在電路層把原本攤在平面的邏輯「折」起來，縮短連線路徑，降低電阻電容負載，從而在同樣面積獲得更高有效密度（細節以華為公開技術演講為準）。

華為給出的四層協同路徑，可以概括為「每一層都在縮短時間常數 τ」：

器件層：優化電晶體與互連的電阻、寄生電容，從物理底層最大限度縮微器件級時間常數 τ。
電路層：邏輯折疊突破傳統平面佈局的物理邊界，顯著縮短關鍵路徑走線，實現電晶體密度和電路性能大幅提升。
晶片層：「軟體、架構、晶片」全棧軟硬芯協同，基於實際工作負載對指令流與資料流細粒度控制，提高系統級並行度，降低端到端執行時間。
系統層：定義靈衢總線，重構計算系統互聯協定，實現超節點統一記憶體編址與原生記憶體語意，大幅降低系統通訊時延。

3.1 「無感延遲」到底指誰的體驗？

新聞稿與產業討論裡的「無感」，至少有三層讀者，別混為一談：

終端使用者：手機/PC 上 AI 功能回應更快、更少卡頓（華為演講提到智慧型手機與 AI 計算領域的實踐）。
訓練/推理維運：叢集擴容時通訊佔比下降，同樣電費跑更多 token。
Agent 開發者：模型 API 與工具鏈的 P95 延遲下降，允許 Harness 預設開更多並行子 Agent。

對第三類人，τ 定律不是「立刻免費」，而是抬高可承載的 Agent 複雜度上限。今天上限常被延遲稅卡住；若系統層 τ 下降，ECC 式「多 Agent 並行 + 品質門」才從「土豪配置」變成「預設配置」。

3.2 四層 τ 縮微 → Agent 可感知效果（對照表）

從晶片新聞到 IDE 體驗（邏輯映射，非性能承諾）
τ 定律層級	公開目標	若落地，Agent 側可能出現的變化
器件/電路	更短路徑、更高密度	邊緣推理卡更便宜；本地小模型更快
晶片全棧	按負載調度指令/資料流	同樣硬體上推理吞吐提升，API 限價空間增大
系統/靈衢	超節點統一記憶體語意	長上下文、多工具狀態跨卡共享成本下降
產業規模	381 款已量產晶片等	供應鏈選擇增多，但開發者仍透過雲抽象消費

何庭波在演講結語中強調：「未來一定屬於開放合作」，半導體演進沒有一家企業能獨自給出所有答案——這對 Agent 生態同樣成立：晶片廠拆牆，Harness 廠編排流程，雲 Mac 提供 macOS「手」。

對 AI 從業者而言，關鍵不在背公式，而在於：τ 定律若成立，晶片密度只是結果，「系統像一台機器一樣工作」才是體驗。靈衢要解決的，正是 Agent 與訓練叢集都痛恨的——跨 CPU/NPU/記憶體的拷貝與同步。路線圖方面：2026 年秋季麒麟率先邏輯折疊、2031 年密度對標 1.4nm 等，屬於產業公開陳述，落地節奏仍取決於生態與供應鏈。

τ 縮微是縱貫棧的命題；靈衢在系統層對準互聯時延

寫作邊界

本文基於華為公開新聞與產業分析，不構成對未發布產品的實測結論。旗艦模型（Claude Opus 類、後續 GPT 世代）對算力的需求是方向性判斷，具體型號與定價以各廠商發布為準。

4. 訓練成本與 Agent 成本：誰先降下來？

這是全文最容易爭論的一點。我們給出可檢驗的判斷，而不是「大家都受益」的漂亮話。

4.1 訓練側：τ + 靈衢的邏輯更直接

大規模訓練對互聯最敏感：叢集越大，通訊牆越貴。靈衢類「統一記憶體語意」若在大叢集落地，直接作用於 AllReduce、專家並行與跨機 KV 同步——τ 定律對訓練側單位算力成本的敘事鏈條更完整：器件/電路縮 τ → 單卡更強 → 系統層降通訊 → 同樣叢集規模下完成同樣資料量的牆鐘時間更短。

受益者首先是雲廠商、模型廠、有自建叢集的企業。個人開發者不會明天買到「靈衢卡」，但會在未來某個季度發現：新模型發布節奏更快、長上下文 API 單價鬆動——那是訓練側降本滲漏的結果。

4.2 Agent 側：延遲比 FLOPS 更決定體驗

Agent 推理與 Runner更吃低延遲 + 穩定並發 + 可預測的機時：哪怕單卡密度上升，若 Harness 仍串行「想一步 → 調一次工具 → 再想一步」，使用者仍覺得「慢」。密度提升讓邊緣推理變便宜後，IDE 才敢預設「多 Agent 並行」（reviewer、tester、doc writer 同時跑）——這與 ECC 文件中的並行化、git worktree 方向一致。

換句話說：訓練降的是「造大腦」的錢；Agent 花的是「大腦反覆動手」的錢。 兩條曲線相關，但不重合。

4.3 時間線：為什麼你說服不了自己「再等一代晶片」

基礎設施創新 → 開發者錢包（經驗性滯後）
階段	典型滯後	你能做什麼
論文/發布會	0 個月	建立認知，改架構規劃
晶片量產進雲	12–24 個月	關注雲廠商新實例族與區域
API 單價/配額鬆動	18–36 個月	重新評估模型選型與並發
Harness 預設更重	24+ 個月	提前寫好 Rules，避免被預設配置拖垮

對普通開發者，本月仍應優化 Harness（減輪次、裁剪上下文、ECC_HOOK_PROFILE=minimal），並把 macOS 重命令放到穩定 Runner；明年再評估是否加開更強模型。雲 Mac 帳單與機時、頻寬、是否 7×24 常駐綁定——和資料中心 τ 新聞屬於上下游，前者今天就能稽核。

別掉進「等硬體救我」陷阱

若你的 Agent 任務 60% 時間花在 xcodebuild / npm test 上，換一顆更強的 NPU 不如快取 DerivedData、縮小測試集、Runner 就近部署。τ 定律值得跟蹤，但延遲稅的大頭常在應用拓撲。

5. 若算力（尤其延遲）大幅下降，下一波爆發形態是什麼？

算力變便宜不會自動消滅幻覺，也不會替代權限與合規設計。但在「延遲稅」下降的前提下，下列形態更有機率從早期採用者擴散到預設配置——每條都給出「為什麼現在還沒普及」的反證，避免空談。

5.1 常駐個人 Agent：從玩具到「預設多一台閘道」

形態：OpenClaw 類 Gateway + Channels，7×24 接 Telegram/郵件/日曆，模型在雲端，狀態在 Workspace。為什麼依賴低延遲：Channel 訊息突發時，若每次都要冷啟動、重新拉全量上下文，體驗像「笨助手」而非「分身」。為什麼現在還沒全員普及：常駐稅 + 權限事故成本高，很多人寧可網頁聊天。

τ/靈衢關聯：間接降低雲端推理排隊與單價，讓「按月開閘道」在心理上可接受；但權限分軌、稽核日誌仍是 adoption 瓶頸，與晶片無關。

5.2 IDE 內多 Agent 編排：從「一個助手」到「小隊」

形態：ECC 式 Harness 同時掛 reviewer、測試、文件 Agent；/quality-gate 與並行 worktree 成為預設。反證：今天 token 與 Runner 池撐不住「全隊上崗」，所以多數人只開單 Agent。算力下降後：並行度上升，瓶頸變成「規則是否打架」而非「敢不敢開」。

5.3 計費單位改寫：從 messages 到 agent-hours

形態：雲廠商與 IDE 套件按並發 Agent 數、Runner 核時、超節點小時計費，類似今天你看 macOS CI 的分鐘數。站內 GitHub Actions 自建 macOS Runner 一文已在講「分鐘 vs 機時」——Agent 時代只是把「建置」換成「思考+建置」。

5.4 本地小模型 + 雲端大模型混合（第四形態）

τ 縮微若讓端側 NPU 足夠便宜，會出現「本地 8B 做路由與脫敏，雲端 Opus 做重推理」的混合 Harness。說服點在於：延遲稅可在本地消化 80% 讀檔案/索引，只有 commit 級決策上雲。風險是安全邊界更難畫——又回 Harness 治理。

四條反例（必須同時記住）：沒有品質門的便宜算力 = 更快地產出爛程式碼；OpenClaw 與 IDE Agent 共用高權限金鑰 = 更大事故半徑；盲目並行 Agent = 上下文互相污染；只看晶片新聞不改 Runner 拓撲 = 帳單照舊。

6. Runbook：帳單稽核與降本清單（今天就能做）

把「說服自己」變成勾選框。建議每月一次，用 30 分鐘做完。

Agent 算力帳單稽核清單
檢查項	若答案是「是」	優先動作
單次任務 > 30 輪工具呼叫？	Harness 可能在空轉	拆任務、加停止條件、減 Skills
日誌/測試輸出全文進上下文？	推理稅爆炸	只餵失敗用例摘要；Runner 側歸檔
筆電合蓋後仍跑 CI？	延遲稅 + 失敗率上升	遷到雲 Mac / 自建 Runner
OpenClaw 與 Claude Code 同金鑰？	安全風險 > 成本風險	分機、分權限、分環境變數
從未讀 ECC Hook profile 文件？	常駐稅可能偏高	試 `minimal` 再逐步加

拆開三張帳單：推理稅（API）、延遲稅（建置/測試/I/O）、常駐稅（7×24）。各占多少百分比，寫下 Top1 瓶頸。
重任務上雲 Mac，輕編排留本地：與 ECC「大腦在旁邊、手在 Runner」一致；加拿大 M4 + 獨享 IP 適合北美 API 與 Xcode 同區域（參見一機一 IP）。
跟蹤 τ 但不過度焦慮：讀華為 ISC AS 2026 新聞稿建立認知；本月真正能動帳單的是 Harness 與 Runner。
設「算力預算」而非無限開 Opus：團隊可為 Agent 任務設月度 token + 機時上限，超出則降級模型或改人工 Review。

7. 結論：算力即權力，但權力本週在 Harness 手裡

韜(τ)定律與靈衢回答的是：半導體與超節點如何把「等資料」的時間繼續壓下去。Claude Code、ECC、OpenClaw 回答的是：誰有資格在什麼時候燒掉這些算力。兩條線會在未來 24 個月交匯；在此之前，最能說服 CFO 的，是一張拆好的三張帳單表，而不是一張晶片路線圖截圖。

若你只記住一句話：τ 定律讓系統更接近「無感」；Harness 決定你感不感得到貴。

8. 常見問題

Q1. 韜(τ)定律和摩爾定律是什麼關係？

摩爾定律強調電晶體幾何尺寸縮微；華為提出的 τ 定律強調以時間常數縮微（訊號傳播時延、邏輯折疊等）繼續提升密度與系統性能，以應對幾何縮微放緩。二者不是簡單替代關係，而是產業在物理極限下探索的新路徑表述。

Q2. 靈衢和 NVLink、CXL 是一類東西嗎？

都在解決多晶片/多機互聯與記憶體語意問題，但協定棧、生態與落地場景不同。靈衢據公開材料定位於超節點統一編址與原生記憶體語意；NVLink 更偏 GPU 高速互聯；CXL 強調記憶體擴展與池化。選型由叢集架構與供應鏈決定，開發者通常透過雲廠商抽象感知。

Q3. 個人開發者能直接受益嗎？

間接受益為主。訓練側降本最終會滲漏到 API 單價與開源模型能力；Agent 側更先感受到的是 Runner 穩定性與延遲。近期最有效的槓桿仍是 Harness 與 Runner 規劃，而非等待某顆晶片上市。

Q4. 算力便宜了，程式設計師會被替代嗎？

工作流會變，崗位不會一夜消失。 會寫 Harness、會定義品質門與權限邊界的人更值錢；只會單次 prompt 的人會被並行 Agent 擠壓。ECC 類「作業系統層」配置、OpenClaw 類「7×24 閘道」維運，都是新分工。

Q5. 這和 Hashvps 雲 Mac 有什麼關係？

Hashvps 處在應用層算力：為 Agent 與 Xcode CI 提供 macOS Runner、獨享 IP 與穩定 SSH/VNC。資料中心 τ 與靈衢解決的是更底層的互聯；你把 Agent 的「手」放在雲 Mac 上，是在優化延遲稅的工程落地，與晶片新聞互補而非重複。

Q6. 華為自說自話，憑什麼說服我？

合理懷疑。本文引用的是ISCAS 公開演講與新聞稿，不是第三方 Benchmark。說服點在於：381 款量產晶片、麒麟時間節點等可被後續產品驗證；即使你對廠商敘事保留意見，「幾何縮微放緩 → 系統層要找新槓桿」仍是全球共識。Agent 帳單問題則不依賴華為——你用一週 Claude Code 就能自證。

Q7. 我只優化 token，不管 Runner，行不行？

短期可以，長期會撞牆。 純 iOS/macOS 倉庫裡，測試與簽名常在 Runner 上耗時遠超推理。只砍 token 而不把 xcodebuild 就近、快取、並行化，整體任務仍慢仍貴。

Q8. 開源小模型能繞過 τ 定律嗎？

開源模型降低的是推理稅的一部分，不自動解決通訊牆與 Runner 延遲稅。本地 8B + 雲端大模型混合會更常見，但 Harness 複雜度上升，需要更強治理。