J'étais l'un des 16 développeurs dans cette étude. Je voulais exprimer mes opinions sur les causes et les stratégies d'atténuation du ralentissement des développeurs. Je dirai comme un accroche "pourquoi vous écouter ?" que j'ai connu un -38% d'accélération de l'IA sur mes problèmes assignés. Je pense que la transparence aide la communauté.
METR
METR11 juil. 2025
Nous avons réalisé un essai contrôlé randomisé pour voir dans quelle mesure les outils de codage AI accélèrent le travail des développeurs open-source expérimentés. Les résultats nous ont surpris : les développeurs pensaient qu'ils étaient 20 % plus rapides avec les outils AI, mais en réalité, ils étaient 19 % plus lents lorsqu'ils avaient accès à l'AI que lorsqu'ils n'en avaient pas.
Tout d’abord, je pense que l’accélération de l’IA est très faiblement corrélée à la capacité de n’importe qui en tant que développeur. Tous les développeurs de cette étude sont très bons. Je pense que cela a plus à voir avec le fait de tomber dans des modes d’échec, à la fois dans la capacité du LLM et dans le flux de travail humain. Je travaille avec une tonne de développeurs de pré-entraînement incroyables, et je pense que les gens sont confrontés à beaucoup des mêmes problèmes. Nous aimons dire que les LLM sont des outils, mais nous les traitons plutôt comme une solution miracle. Littéralement, n’importe quel développeur peut attester de la satisfaction de déboguer enfin un problème épineux. Les LLM sont un gros bouton de raccourci de dopamine qui peut résoudre votre problème. Continuez-vous à appuyer sur le bouton qui a 1 % de chances de tout réparer ? C’est beaucoup plus agréable que l’alternative exténuante, du moins pour moi.
Je pense que des cas de surutilisation de LLM peuvent se produire parce qu’il est facile d’optimiser pour le plaisir perçu plutôt que pour le temps de résolution pendant le travail. J’ai appuyé sur la touche de tabulation dans le curseur pendant 5 heures au lieu de déboguer pendant 1 :
Troisièmement, il est très facile de se laisser distraire pendant les temps d’arrêt pendant que les LLM génèrent. L’économie de l’attention sur les médias sociaux est brutale, et je pense que les gens passent 30 minutes à faire défiler en « attendant » leur génération de 30 secondes. Tout ce que je peux dire sur celui-ci, c’est que nous devrions connaître nos propres pièges et essayer de remplir ce temps de génération LLM de manière productive : - Si la tâche nécessite une grande concentration, passez ce temps à travailler sur une sous-tâche ou à réfléchir à des questions de suivi. Même si le modèle répond à votre question, qu’est-ce que je ne comprends pas d’autre ? - Si la tâche nécessite une faible concentration, effectuez une autre petite tâche entre-temps (répondre à un e-mail/slack, lire ou modifier un autre paragraphe, etc.). Comme toujours, de petites mesures d’hygiène numérique aident à cela (bloqueurs de sites Web, téléphone sur dnd, etc.). Désolé d’être un grampy, mais cela fonctionne pour moi :)
Quelques déclarations finales : - METR est une organisation merveilleuse avec laquelle travailler, et ce sont de solides scientifiques. J'ai adoré participer à cette étude et lire leurs résultats. - Je ne suis pas un gourou des LLM essayant de prêcher. Considérez cela comme la publication d'une entrée de journal personnel, en espérant que d'autres puissent bénéficier de mon introspection.
1,96M