La puissance de calcul est le pouvoir : la loi Tao (τ), le bus unifié Lingqu et la « taxe de latence » à l'ère des agents IA

Le 25 mai 2026, à Shanghai, lors de l'IEEE International Symposium on Circuits and Systems (ISCAS 2026), He Tingbo (Huawei) a prononcé une conférence plénière intitulée « Exploration et pratique d'une nouvelle voie pour les semi-conducteurs », présentant un nouveau principe directeur pour l'industrie : la loi Tao (τ), et détaillant comment le bus unifié Lingqu (Unified Bus) peut reconfigurer l'interconnexion des super-nœuds (voir le communiqué officiel Huawei). Quelques chiffres à retenir d'emblée : 381 puces déjà mises en production sur cette voie au cours des six dernières années ; le Kirin adoptera en premier le repliement logique (« logic folding ») à l'automne 2026 ; d'ici 2031, la densité de transistors des puces haut de gamme pourrait atteindre un niveau équivalent à un nœud de 1,4 nm — ce n'est pas une fuite sur une puce mystérieuse, mais une réponse publique à la question : que faire quand le rétrécissement géométrique ne tient plus la route ?

En parallèle, côté développeurs, une autre tempête, plus proche du portefeuille, se joue : Claude Code, les agents Cursor et divers Harness transforment le « codage » d'un échange question-réponse en un flux multi-tours de raisonnement + appels d'outils + contexte long + présence possible 7×24. Beaucoup constatent ce mois-ci une facture API qui a « double » du jour au lendemain ; le réflexe est de blâmer une hausse de prix des modèles. Le plus souvent, la vérité est ailleurs : vous payez déjà les intérêts composés de la forme Agent — chaque tour ajoute non seulement des tokens, mais aussi du temps mort en attendant la fin des tests, git status ou la réponse d'un Runner distant.

Cet article ne répond qu'à une question : quand la loi τ cherche à aligner densité de transistors et latence système, qui en profite en premier : les clusters d'entraînement à mille milliards de paramètres, ou l'agent IA que nous ouvrons chaque matin ? Si vous venez de lire notre article sur le Harness ECC, ou si vous déployez un jumeau numérique OpenClaw, la suite relie hausse de facture et actualité semi-conducteurs sur un même graphe causal, avec une check-list d'audit de facture exécutable dès aujourd'hui.

En trois minutes :

La puissance, c'est le pouvoir

À l'ère des agents, ce qui coûte cher n'est pas seulement le prix du FLOPS, mais la « taxe de latence » cumulée sur les allers-retours.

multi-tours × E/S
τ ≠ seulement des puces plus denses

Le « rétrécissement temporel (τ) » remplace le géométrique ; quatre couches (dispositif, circuit, puce, système) ; Lingqu attaque le mur de communication.

logic folding
Prochaine vague

Agents permanents, passerelles 7×24, facturation à l'heure-agent — pas seulement une fenêtre de chat plus large.

Harness d'abord

0. « La puissance de calcul est le pouvoir » : poser le cadre

Avant la loi τ, clarifions pouvoir. Il ne s'agit pas d'une métaphore politique, mais de qui peut occuper de façon stable une puissance de calcul à faible latence, et donc faire tourner des workflows Agent plus lourds :

Cloud et fonderies maîtrisent l'interconnexion des clusters et l'échelle d'achat, donc la courbe des coûts d'entraînement ;
Les plateformes (API de modèles, suites IDE) fixent le Harness par défaut et l'unité de facturation ;
Équipes et individus maîtrisent la topologie des Runners, le taillage des règles et l'autorisation ou non d'une présence 7×24.

La loi Tao (τ) et Lingqu sont des armes de la première couche ; ECC, OpenClaw et le Runner Mac cloud sont des armes de la troisième. L'écart entre les deux est ce qui fait que beaucoup se sentent « non convaincus » : vous lisez l'actualité puce, mais la facture du mois dépend encore des tours de Harness. La section suivante comble cet écart avec une chaîne de tâches concrète.

1. Pourquoi les agents IA d'aujourd'hui « avalent » autant de calcul ?

Beaucoup attribuent la hausse de facture Claude Code à un modèle plus cher. L'explication ingénieur est plutôt : l'agent découpe une conversation en dizaines de micro-inférences, chacune pouvant déclencher lecture de fichiers, tests, patch, puis relecture du linter. Ce que vous ressentez comme « ça travaille en continu » dans l'IDE, c'est côté système une occupation continue de la file d'inférence et de la bande passante E/S.

1.1 Scénario : que brûle une correction de test unitaire en CI ?

Imaginez la consigne : « UserServiceTests est rouge en CI, remets au vert. » Sur un parcours type Claude Code / Cursor Agent, ce n'est souvent pas une réponse, mais 20–40 micro-étapes, grossièrement :

Localisation : glob / grep sur plusieurs dossiers, 3–8 extraits de fichiers injectés dans le contexte (gonflement des tokens).
Hypothèse : le modèle génère un patch, appelle write/edit (E/S + contrôle des permissions).
Vérification : npm test ou xcodebuild test en local ou sur Runner distant (gros poste de taxe de latence : compilation + liaison + tests peuvent prendre plusieurs minutes ; le modèle attend ou continue de lire les logs).
Itération : si toujours rouge, retour aux étapes 2–3 jusqu'au vert ou plafond de pas.
Clôture : message de commit, mise à jour de la PR, Hooks ECC qui écrit la mémoire de session (si ECC est installé).

Remarque : le coûteux n'est pas toujours la « réflexion », mais « réfléchir une fois = toucher le disque ou lancer une commande ». Huit minutes de test, répétées trois fois dans la boucle Agent, ce n'est pas seulement huit minutes de Mac cloud : c'est aussi les tokens des tours qui reinjectent les logs entiers dans le contexte. D'où la même consigne qui coûte des centimes en chat web et un ordre de grandeur de plus en tâche Agent (prix selon offre ; ici on insiste sur la structure, pas sur un devis).

1.2 Trois coûts : ne fixez pas que le prix du token

Découpez la facture Agent en trois lignes ; les débats d'équipe deviennent plus lucides :

Décomposition des coûts d'une tâche Agent (vue ingénieur)
Type	Sources typiques	Qui contrôle	τ/Lingqu à court terme ?
Taxe d'inférence	API modèle, longueur de contexte, tours de réflexion	Choix du modèle, Harness, Rules	Indirect (baisse cluster → baisse API)
Taxe de latence	tests/build, E/S disque, SSH inter-régions	emplacement Runner, cache, parallélisme	Partiel (interconnexion) ; surtout applicatif
Taxe de présence	Gateway 7×24, sondes, polling Channels	OpenClaw ou non, veille machine	Peu lié aux puces

Première étape pour se convaincre : dessinez ces trois lignes, puis décidez si vous changez Opus, déplacez xcodebuild sur un Runner M4 au Canada, ou activez ECC_HOOK_PROFILE=minimal. Changer seulement le modèle sans la topologie donne souvent « plus intelligent, plus lent, plus cher ».

Chat web classique vs workflow Agent : la différence n'est pas « plus malin », mais la forme du travail :

Chat unique vs Agent (Claude Code / Cursor Agent)
Dimension	Chat web	Agent de code
Tours	souvent 1–5	souvent 15–50+ par tâche
Outils / E/S fichiers	peu	grep, test, build, git fréquents
Contexte	historique de dialogue	dépôt + mémoire Harness (voir ECC)
Mode	à la demande	peut être 7×24 (voir OpenClaw)
Facture	surtout tokens	tokens + attente + heures Runner

D'où le paradoxe offre-demande de l'ère Agent : la demande applicative monte en exponentielle avec la maturité des Harness (ECC productise le flux, OpenClaw productise le temps en ligne), tandis que l'offre sur une machine ou un lien PCIe heurte d'abord le mur mémoire et le mur de communication. Une part de ce que vous payez, c'est l'inférence ; l'autre, c'est « chaque appel d'outil attend que les données aient fini de bouger » — la taxe de latence.

1.3 Pourquoi le Harness fait croître la demande en composé, pas en linéaire ?

Claude Code nu, vous décidez quand lire un fichier ou lancer un test. Avec un Harness type ECC, Hooks début/fin de session, portes qualité, AgentShield, apprentissage continu déclenchent en arrière-plan lectures et scans supplémentaires — de la puissance de calcul contre cohérence et sécurité. OpenClaw compose sur un autre axe : messages Channels, tâches planifiées, plugins concurrents rendent « en ligne » la norme.

Ce n'est pas dire qu'il ne faut pas installer de Harness, mais que la structure de pouvoir change : avant, c'est vous qui décidiez quand brûler du calcul ; maintenant, règles et passerelles le font pour vous. Gouvernance (profil Hook, séparation des permissions, isolement Runner) compte autant que l'actualité puce — et se change cette semaine.

Le Harness découpe une demande en tours ; l'E/S outil coûte souvent plus en « attente » qu'en inférence

2. Deux murs : pourquoi PCIe et l'interconnexion classique freinent l'agent

Selon le communiqué Huawei, la loi de Moore fait face à un double défi physique et économique : rétrécissement géométrique qui ralentit, coût par transistor moins favorable, alors que la demande mondiale de calcul grimpe en exponentielle. En datacenter, unités de calcul (CPU, NPU/GPU), mémoire et stockage vivent souvent sur des « îlots » séparés. Deux goulots classiques :

Mur mémoire : le calcul est sur l'accélérateur, poids et cache KV en HBM/DRAM. La littérature montre depuis longtemps que déplacer les données peut coûter plus en énergie et latence que calculer sur place. En inférence LLM, un token qui va chercher des données hors puce fait chuter le débit — « GPU peu chargé mais on attend ».
Mur de communication : entraînement multi-cartes ou inférence super-nœud : AllReduce, MoE, partage KV inter-machines dépendent de la bande passante. Sous PCIe ou protocoles fragmentés, « ajouter une carte ne scale pas linéairement » est le quotidien des ops ; la part communication peut devenir massive sur les grands modèles.

2.1 PCIe, NVLink, CXL et Lingqu : pas le même problème

Un tableau pour éviter « Lingqu est fort » sans lien avec l'agent :

Comparaison des directions d'interconnexion (conceptuel, pas un classement benchmark)
Solution	Cible principale	Cluster d'entraînement	Agent / Runner
PCIe	périphériques et cartes d'accélération	souvent goulot bande passante / latence	indirect ; courant sur portable et petits Runners
NVLink, etc.	liaison haute bande passante entre GPU	raccourcit AllReduce	peu accessible aux devs individuels
CXL	extension et pool de mémoire	capacité mémoire effective	influence offres Runner managées
Lingqu (discours public Huawei)	adressage mémoire unifié super-nœud, sémantique native	baisse latence communication système	se ressent via latence et prix API cloud

Les mots-clés publics sur Lingqu : « reconfigurer le protocole d'interconnexion du système de calcul » et « super-nœud » — viser que CPU, NPU et mémoire se comportent comme une seule machine, moins de copies et de synchronisations. Pour le développeur agent : demain, des SKU cloud « grosse mémoire + faible latence » pourraient mieux payer ; aujourd'hui, il faut encore optimiser le RTT SSH transocéanique.

2.2 Comment les deux murs atteignent le portable et le Mac cloud ?

Chaîne de transmission :

Murs mémoire/communication en cluster → coût et file d'attente des services d'inférence cloud → prix et quotas API → chaque tour Agent plus cher ou plus lent ; côté Runner, si modèle, développeur et Mac Runner ne sont pas alignés (ex. APAC / US-Est / ouest canadien), chaque outil ajoute une taxe de latence réseau.

Quand les « mains » de l'agent sont sur un Runner Mac distant ou une CI cloud, une partie des murs devient du RTT : modèle dans le cloud, dépôt sur le Runner, chaque npm test est un aller-retour inter-frontière. ECC optimise le flux Harness, mais ne supprime pas la limite physique de l'interconnexion ; OpenClaw 7×24 étire l'attente sur toute la journée — la facture passe du par acte au mensuel.

Conclusion actionnable : aligner Runner, modèle et fuseau de façon raisonnable bat souvent « attendre la loi τ ». Beaucoup de clients Hashvps placent un M4 canadien pour API d'inférence nord-américaines et builds Xcode dans la même région : optimisation applicative de la taxe de latence, pas attente du super-nœud.

Pour que la loi τ porte ses fruits, il faut enfoncer le temps de « déplacer les données » dans la courbe τ

3. Que dit la loi Tao (τ) ? Pourquoi Lingqu est la clé « sans couture »

Selon la publication Huawei à ISC AS 2026, la loi Tao (τ) propose le « rétrécissement temporel (τ) » en remplacement du « rétrécissement géométrique » comme principe directeur — via le repliement logique (Logic Folding) et d'autres innovations pour comprimer le délai de propagation des signaux et augmenter la densité de transistors.

En clair : à l'ère de Moore, on comparait « combien de transistors par unité de surface » ; à l'ère τ, on compare « combien de temps pour parcourir le chemin critique » — la densité est une conséquence, pas le seul levier. Le repliement logique « plie » du circuit qui était plan pour raccourcir les pistes et réduire RC (détails selon présentations publiques Huawei).

Quatre couches coordonnées, chacune réduisant la constante de temps τ :

Dispositif : optimiser résistance et capacité parasites des transistors et interconnexions.
Circuit : repliement logique, chemins critiques plus courts, densité et performance en hausse.
Puce : co-conception logiciel / architecture / silicium, contrôle fin des flux instruction et données selon charge réelle.
Système : définir le bus Lingqu, reconfigurer l'interconnexion, adressage mémoire unifié et sémantique mémoire native sur le super-nœud, forte baisse de latence de communication.

3.1 « Latence imperceptible » : pour qui ?

Le « sans couture » du discours industriel recouvre au moins trois publics :

Utilisateur final : fonctions IA plus réactives sur téléphone/PC (pratiques smartphone et calcul IA citées par Huawei).
Ops entraînement/inférence : en agrandissant le cluster, la part communication baisse, plus de tokens pour le même courant.
Développeur Agent : baisse du P95 API et outils, le Harness peut par défaut lancer plus de sous-agents en parallèle.

Pour ce troisième groupe, τ n'est pas « gratuit demain », mais relève le plafond de complexité Agent supportable. Aujourd'hui ce plafond est souvent bloqué par la taxe de latence ; si τ système baisse, le profil ECC « multi-agents + portes qualité » passe de luxe à défaut.

3.2 Quatre couches τ → effets perçus par l'agent (table de correspondance)

De l'actualité puce à l'expérience IDE (mapping logique, pas promesse de perf)
Niveau τ	Objectif public	Changement possible côté Agent
Dispositif / circuit	chemins plus courts, plus de densité	cartes d'inférence edge moins chères ; petits modèles locaux plus rapides
Pile complète puce	ordonnancement charge	plus de débit à puce égale, marge sur les prix API
Système / Lingqu	sémantique mémoire unifiée	partage long contexte et état outils multi-cartes moins cher
Échelle industrie	381 puces produites, etc.	plus de choix supply chain ; le dev consomme toujours via le cloud

He Tingbo conclut : « l'avenir appartient à la coopération ouverte » — aucune entreprise seule n'a toutes les réponses semi-conducteurs ; pareil pour l'écosystème Agent : fonderies cassent les murs, éditeurs de Harness orchestrent, Mac cloud fournit les « mains » macOS.

Pour le praticien IA, l'essentiel n'est pas une formule, mais : si τ tient, la densité n'est qu'un résultat ; l'expérience, c'est le système qui travaille comme une machine. Lingqu cible ce que agents et clusters détestent : copies et sync entre CPU, NPU et mémoire. Feuille de route publique : Kirin et logic folding automne 2026, densité type 1,4 nm en 2031 — le rythme dépend encore de l'écosystème.

Le rétrécissement τ traverse toute la pile ; Lingqu vise la latence d'interconnexion au niveau système

Périmètre de l'article

Texte fondé sur les communiqués publics Huawei et l'analyse sectorielle, pas sur des benchmarks de produits non annoncés. Les besoins en calcul des modèles phares (Claude Opus, futures générations GPT) sont directionnels ; modèles et tarifs selon chaque éditeur.

4. Coût d'entraînement vs coût Agent : qui baisse en premier ?

Point le plus débattu du texte. Voici un jugement testable, pas un « tout le monde gagne ».

4.1 Entraînement : la chaîne τ + Lingqu est plus directe

Grand entraînement est hypersensible à l'interconnexion : plus le cluster est grand, plus le mur de communication coûte cher. Si la sémantique mémoire unifiée de type Lingqu se déploie à grande échelle, cela agit sur AllReduce, MoE et sync KV — la narration τ pour le coût unitaire d'entraînement est complète : dispositif/circuit réduit τ → carte plus forte → système réduit communication → moins de temps mur pour le même volume de données.

Les premiers gagnants : cloud, maisons de modèles, entreprises avec cluster dédié. Vous n'acheterez pas une « carte Lingqu » demain, mais un trimestre vous verrez peut-être des modèles plus vite, des API long contexte un peu moins chères — fuite de la baisse côté entraînement.

4.2 Agent : la latence compte plus que les FLOPS bruts

Inférence Agent et Runner exigent faible latence, concurrence stable, heures machine prévisibles : même si la densité par carte monte, un Harness sériel « penser → outil → repenser » reste lent. Quand l'inférence edge devient abordable, l'IDE ose le « multi-agents parallèles » (reviewer, testeur, doc) — aligné avec ECC (parallélisation, git worktree).

En bref : l'entraînement réduit le coût de « fabriquer le cerveau » ; l'agent paie le « cerveau qui retourne aux outils ». Courbes corrélées, non superposables.

4.3 Chronologie : pourquoi « attendre la prochaine génération de puces » ne convainc pas

Innovation infra → portefeuille développeur (décalage empirique)
Étape	Décalage typique	Action possible
Article / keynote	0 mois	cadrage, plan d'architecture
Puce en prod dans le cloud	12–24 mois	suivre nouvelles familles d'instances et régions
Prix / quotas API assouplis	18–36 mois	revoir modèle et concurrence
Harness par défaut plus lourd	24+ mois	écrire les Rules avant d'être entraîné par le défaut

Pour le développeur individuel, ce mois-ci : optimiser Harness (moins de tours, contexte taillé, ECC_HOOK_PROFILE=minimal), mettre les grosses commandes macOS sur un Runner stable ; l'an prochain : réévaluer un modèle plus fort. Facture Mac cloud liée aux heures, bande passante et 7×24 — en amont des news τ datacenter, mais auditable aujourd'hui.

Évitez le piège « le hardware me sauvera »

Si 60 % du temps Agent part dans xcodebuild / npm test, un NPU plus fort aide moins que cache DerivedData, jeu de tests réduit, Runner proche. Suivez τ, mais la taxe de latence se règle souvent en topologie applicative.

5. Si le calcul (surtout la latence) chute, quelle prochaine vague ?

Un calcul moins cher n'élimine pas les hallucinations ni ne remplace permissions et conformité. Mais si la taxe de latence baisse, les formes suivantes ont plus de chances de passer de early adopters au défaut — chacune avec un contre-exemple « pourquoi pas encore partout ».

5.1 Agent personnel permanent : du gadget à la passerelle par défaut

Forme : Gateway OpenClaw + Channels, 7×24 sur Telegram/mail/calendrier, modèle cloud, état dans le Workspace. Pourquoi la latence compte : pics de messages sans cold start ni rechargement de tout le contexte — sinon assistant « lourd », pas jumeau. Pourquoi pas universel : taxe de présence + risque permissions ; beaucoup restent au chat web.

Lien τ/Lingqu : baisse indirecte des files et des prix cloud ; gouvernance et journaux d'audit restent le frein d'adoption, pas le silicium.

5.2 Multi-agents dans l'IDE : d'un assistant à une équipe

Forme : Harness ECC avec reviewer, tests, doc ; /quality-gate et worktrees parallèles par défaut. Contre-exemple : aujourd'hui tokens + pool Runner ne tiennent pas « toute l'équipe » ; on n'ouvre qu'un agent. Après baisse du calcul : le goulot devient « règles qui se contredisent », pas « oser ouvrir ».

5.3 Nouvelle unité de facturation : des messages aux agent-heures

Forme : cloud et IDE facturent agents concurrents, heures Runner, heures super-nœud — comme les minutes macOS CI. Notre article GitHub Actions Runner Mac auto-hébergé parle déjà minutes vs heures machine ; l'ère Agent remplace « build » par « réflexion + build ».

5.4 Hybride petit modèle local + gros modèle cloud (quatrième forme)

Si le τ rend les NPU edge abordables : « 8B local pour routage et anonymisation, Opus cloud pour décisions de commit ». Argument : 80 % de la taxe de latence sur lecture/index local, seulement les décisions lourdes montent. Risque : frontière sécurité plus floue — retour à la gouvernance Harness.

Quatre contre-exemples à garder : calcul bon marché sans porte qualité = code pourri plus vite ; OpenClaw et agent IDE partagent la même clé haute permission = rayon d'incident plus grand ; parallélisme aveugle = contextes pollués ; lire les news puce sans changer la topologie Runner = même facture.

6. Runbook : audit de facture et liste de réduction (aujourd'hui)

Transformez « me convaincre » en cases à cocher. Une fois par mois, 30 minutes.

Check-list d'audit facture puissance de calcul Agent
Contrôle	Si oui	Action prioritaire
Une tâche > 30 appels d'outils ?	Harness tourne peut-être à vide	découper, conditions d'arrêt, moins de Skills
Logs/tests entiers dans le contexte ?	taxe d'inférence explosive	résumé des échecs seulement ; archiver côté Runner
CI sur portable fermé ?	latence + échecs	Mac cloud / Runner auto-hébergé
OpenClaw et Claude Code même clé ?	risque sécurité > coût	séparer machines, permissions, variables
Jamais lu le profil Hook ECC ?	taxe de présence peut-être haute	essayer `minimal` puis ajouter

Trois lignes de facture : inférence (API), latence (build/test/E/S), présence (7×24). Pourcentages et goulot n°1.
Grosses tâches sur Mac cloud, orchestration légère en local : comme ECC « cerveau à côté, mains sur Runner » ; M4 Canada + IP dédiée pour API nord-américaines et Xcode (voir une IP par machine).
Suivre τ sans anxiété : lire le communiqué ISC AS 2026 pour le cadrage ; ce qui change la facture ce mois-ci, c'est Harness et Runner.
Budget de calcul, pas Opus illimité : plafond mensuel tokens + heures machine ; au-delà, modèle inférieur ou revue humaine.

7. Conclusion : la puissance est le pouvoir, mais le pouvoir cette semaine est dans le Harness

Loi Tao (τ) et Lingqu répondent : comment le semi-conducteur et le super-nœud continuent de réduire le temps d'attente des données. Claude Code, ECC et OpenClaw répondent : qui a le droit de brûler ce calcul, et quand. Les deux lignes se croiseront sous 24 mois ; d'ici là, ce qui convainc le CFO, c'est une facture en trois lignes, pas une capture de feuille de route silicium.

Une phrase à retenir : τ rapproche le système de l'imperceptible ; le Harness décide si vous le payez cher.

8. Questions fréquentes

Q1. Quel lien entre la loi Tao (τ) et la loi de Moore ?

Moore met l'accent sur le rétrécissement géométrique ; la loi τ propose le rétrécissement de la constante de temps (délai de propagation, repliement logique, etc.) pour continuer à gagner en densité et performance face au ralentissement géométrique. Ce n'est pas un simple remplacement, mais une nouvelle formulation de piste industrielle.

Q2. Lingqu, NVLink et CXL, même famille ?

Tous traitent interconnexion multi-puce/multi-machine et sémantique mémoire, mais piles, écosystèmes et déploiements diffèrent. Lingqu vise l'adressage unifié super-nœud d'après le matériel public ; NVLink plutôt GPU à GPU ; CXL l'extension de mémoire. Le développeur perçoit surtout l'abstraction cloud.

Q3. Le développeur individuel en profite-t-il directement ?

Surtout indirectement. La baisse côté entraînement finit par affecter prix API et modèles open source ; côté agent, on sent d'abord Runner et latence. Levier immédiat : Harness et topologie Runner, pas attendre une puce.

Q4. Calcul moins cher = développeurs remplacés ?

Le workflow change, les postes ne disparaissent pas en une nuit. Savoir écrire Harness, portes qualité et permissions vaut plus ; celui qui ne fait qu'un prompt unique est pressé par les agents parallèles. Config « couche OS » type ECC et ops passerelle OpenClaw 7×24 sont de nouveaux métiers.

Q5. Lien avec le Mac cloud Hashvps ?

Hashvps est dans la puissance de calcul applicative : Runner macOS pour agents et CI Xcode, IP dédiée, SSH/VNC stables. τ et Lingqu sont plus bas dans la pile ; placer les « mains » de l'agent sur Mac cloud, c'est optimiser la taxe de latence en ingénierie, en complément des news silicium.

Q6. Huawei parle seul, pourquoi m'écouter ?

Scepticisme sain. Nous citons ISCAS public et communiqués, pas des benchmarks tiers. Les 381 puces produites et les dates Kirin se vérifieront sur les produits. Même en doutant du narratif fabricant, « rétrécissement géométrique qui ralentit → levier système » est un consensus mondial. La facture Agent, elle, se prouve en une semaine de Claude Code.

Q7. Optimiser seulement les tokens, pas le Runner ?

OK court terme, mur long terme. Sur dépôts iOS/macOS, tests et signature sur Runner dépassent souvent l'inférence. Couper les tokens sans rapprocher xcodebuild, cache et parallélisme, la tâche reste lente et chère.

Q8. Un petit modèle open source contourne-t-il la loi τ ?

Il réduit une partie de la taxe d'inférence, pas automatiquement le mur de communication ni la latence Runner. Hybride 8B local + gros cloud se généralisera, avec une gouvernance Harness plus exigeante.