Vous en avez marre de cliquer vous-même sur votre ordinateur comme un être humain normal ? Cette sensation de devoir bouger lentement votre souris et taper sur votre clavier, en attendant la retraite vous semble so 2024 ?
Alors j’ai une bonne nouvelle pour vous !
Hugging Face vient tout juste de sortir Open Computer Agent, un robot virtuel open source qui peut utiliser votre PC à votre place pendant que vous sirotez tranquillement votre café en regardant la machine faire le boulot. Disponible gratuitement depuis hier, cet outil représente une réponse claire et nette de l’open source à l’Operator d’OpenAI.
Parce que oui, on en est là… même notre flemme a désormais son IA.
Mais alors qu’est ce que c’est que cet Agent IA encore ? Et bien c’est clairement un stagiaire virtuel un peu lent mais déterminé, capable d’utiliser un ordinateur Linux comme vous le feriez. Pour fonctionner, Open Computer Agent utilise une machine virtuelle hébergée dans le cloud de Hugging Face, équipée de Firefox et d’autres applications. Vous lui donnez une instruction en langage naturel, et il va l’exécuter comme un humain, c’est à dire, ouvrir des applications, naviguer sur le web, cliquer sur des boutons, remplir des formulaires…
Derrière cette interface se cache une technologie assez impressionnante puisque l’agent s’appuie sur les modèles de vision Qwen-VL qui ont une capacité native de “grounding” (en gros, ils peuvent localiser n’importe quel élément dans une image par ses coordonnées) et c’est cette capacité qui permet à l’agent de “voir” l’écran et de savoir où cliquer, comme si un humain regardait l’interface.
Pour commencer, rendez-vous sur https://huggingface.co/spaces/smolagents/computer-agent. Vous verrez alors une interface minimaliste, à savoir un champ pour entrer votre instruction, un bouton “Let’s go!” et une fenêtre qui affiche l’ordinateur virtuel que l’agent va utiliser.
Une fois la requête lancée, vous serez probablement placé dans une file d’attente virtuelle qui selon le moment, peut prendre de quelques secondes à plusieurs minutes. Et une fois votre tour venu, vous verrez le curseur de la souris bouger et l’IA utiliser cet ordinateur virtuel.
Premier test, simple : “Find me pictures of Manuel DORNE (Korben)”. Je clique sur Let’s go et… magie ! L’agent ouvre Firefox, va sur Google, tape la recherche, clique sur Images et commence à parcourir les résultats. Bon, il met environ 45 secondes pour faire ce que vous feriez en 10, mais c’est quand même assez fascinant de voir ce robot virtuel manipuler une interface pensée pour les humains.
Essayons quelque chose de plus complexe. “Use Google Maps to find the Cathedral of Clermont-Ferrand”. Cette fois, l’agent navigue vers Google Maps, tape “Cathedral Clermont-Ferrand” dans la barre de recherche, et trouve effectivement le lieu. Pas mal du tout !
C’est rigolo mais clairement inutilisable au quotidien car l’agent est lent. Pardon, très très très très lent. Chaque action prend plusieurs longues secondes voire minutes, c’est quasiment inutilisable. Et malheur à vous si un CAPTCHA apparaît car l’agent sera alors complètement perdu face à ces tests conçus précisément pour distinguer les humains des robots. Dans ce cas, je vous conseille d’interrompre l’agent et de résoudre vous-même le CAPTCHA, ce qui casse un peu le charme du truc.
J’ai aussi tenté des tâches plus complexes, comme chercher des vols mais ça a été un échec total. L’agent s’est perdu dans les menus déroulants et les calendriers. Il a fini par abandonner après avoir cliqué au hasard pendant deux minutes. D’autres fois aussi, les requêtes étaient tellement longues que l’ordinateur virtuel se met en veille ou perd sa connexion.
Donc si vous voulez tester, voici quelques astuces :
– Soyez précis dans vos instructions
– Commencez par des tâches simples
– Soyez patient (très patient)
– En cas de blocage, utilisez le bouton “Stop The Agent” en bas de l’interface et recharger la page.
Au-delà de ces limitations, ce qui est vraiment intéressant ici, c’est ce que cet outil représente. Tandis qu’OpenAI fait le beau avec son agent propriétaire Operator, Hugging Face montre que la communauté open source n’est pas en reste. C’est LA version démocratisée d’une technologie qui pourrait bien à terme changer notre façon quotidienne d’interagir avec nos ordinateurs.
Imaginez un peu le potentiel… Aujourd’hui, l’agent peut effectuer des recherches basiques sur le web. Mais demain, avec des améliorations, il pourrait automatiser des tâches répétitives comme remplir des formulaires administratifs, surveiller des sites pour vous alerter des changements, ou même faire vos courses en ligne pendant que vous dormez ou flottez dans votre jacuzzi. La belle vie !
Pour les personnes à mobilité réduite, ce type de technologie pourrait même représenter un chouette progré dans l’accessibilité au numérique et pour les dev, c’est également un bon terrain de jeu pour explorer les possibilités de l’IA agentique sans dépendre des solutions proprios.
Bref, y a encore un long chemin à parcourir car l’agent doit devenir plus rapide, plus fiable, doit être capable de résoudre les CAPTCHA, et surtout, de comprendre des instructions plus complexes. Mais c’est précisément parce que c’est open source que ces améliorations pourraient arriver rapidement, portées comme à chaque fois, par une communauté de développeurs enthousiastes.
Alors si vous êtes curieux de voir un robot virtuel galérer avec Firefox exactement comme votre grand-père, foncez tester l’outil ! Il est gratuit mais armez-vous de patience !
Source link
Subscribe to our email newsletter to get the latest posts delivered right to your email.
Comments