Ils créent une entreprise totalement gérée par des agents IA, et les résultats sont catastrophiques

Aux États-Unis, des chercheurs ont créé une entreprise exclusivement peuplée d’agents d’intelligence artificielle, afin de savoir s’ils étaient capables de remplacer les employés humains. Le résultat de cette expérience délivre des enseignements plutôt surprenants.

De plus en plus ces dernières années, l’intelligence artificielle s’incorpore dans le marché du travail afin de faciliter et fluidifier des processus de production, à moindre coût. Cette ingérence laisse à penser qu’à terme, l’IA remplacera progressivement les humains dans l’environnement professionnel.

Cependant, qu’en est-il réellement ? Pour en avoir le coeur net, des chercheurs de l’université Carnegie Mellon, située à Pittsburgh, aux États-Unis, ont simulé une entreprise entièrement gérée par des agents d’intelligence artificielle.

Les employés virtuels étaient des agents basés sur les logiciels d’IA Claude d'Anthropic, GPT-4o d'OpenAI, Google Gemini, Amazon Nova, Meta Llama, et Qwen d'Alibaba. Ils se sont vu attribuer différents postes, comme analyste financier, chef de projet ou encore ingénieur logiciel. En même temps, les chercheurs ont utilisé une autre plateforme pour simuler des collègues qu'ils devaient contacter pour certaines tâches, comme un département des relations humaines.

L'intelligence artificielle au travailCrédit photo : iStock

Au regard des résultats de cette simulation, les chercheurs ont constaté que les intelligences artificielles étaient encore beaucoup trop limitées dans la réalisation de plusieurs tâches, qu’elles soient simples ou complexes.

Les IA pas encore au niveau des compétences humaines

Les agents ont reçu différentes tâches, comme naviguer parmi différents fichiers pour analyser une base de données, ou encore effectuer plusieurs visites virtuelles pour choisir de nouveaux locaux. Par exemple, l’IA Claude 3.5 Sonnet a fini largement en tête, mais cet agent n'a réussi à terminer que 24 % des tâches. Même en prenant en compte les tâches partiellement complétées, son score n'arrive qu'à 34,4 %.

De son côté, Gemini 2.0 Flash se trouve en seconde position, mais n'est parvenu à compléter que 11,4 % des tâches. Enfin, aucun autre agent n'a dépassé 10 %. Toutefois, en matière de coût de fonctionnement, Claude 3.5 Sonnet a coûté 6,34 dollars, contre seulement 0,79 dollars pour Gemini 2.0 Flash.

Les chercheurs ont indiqué que bien souvent les agents ne sont pas capables de comprendre la partie implicite des instructions, comme lorsqu'ils doivent écrire le résultat dans un fichier avec une extension « .docx », ils n'en déduisent pas qu'il s'agit d'un format Microsoft Word.

Une intelligence artificielleCrédit photo : iStock

Ils échouent à certaines tâches par manque de compétences sociales. Mais l'un des plus gros problèmes était lorsqu'ils doivent naviguer sur le Web, et notamment la possibilité de naviguer dans les popups. Lorsqu'ils sont perdus, ils font des raccourcis afin d'omettre la partie difficile de la tâche et pensent avoir réussi.

Ces résultats montrent que même si les IA peuvent donner d'excellents résultats sur certaines tâches bien spécifiques, ils sont encore loin d'être capables d'un fonctionnement autonome. Cette simulation prouve alors que les IA sont encore loin de remplacer les humains au sein des entreprises, et ça c’est plutôt une excellente nouvelle.

Source : Arxiv
VOIR TOUS LES COMMENTAIRES

author-avatar

Au sujet de l'auteur :

Journaliste