Nom de domaine

Sei stanco di fare clic su te stesso sul tuo computer Come un normale essere umano ? La sensazione di dover muovere lentamente il mouse e toccare la tastiera, mentre aspetti la pensione sembri così 2024?

Quindi ho buone notizie per te!

Abbracciare la faccia è appena uscito Agent per computer apertoun robot virtuale open source che può usare il tuo PC per te mentre sorseggi silenziosamente il tuo caffè mentre guardi la macchina fai il lavoro. Disponibile gratuitamente da ieri, questo strumento è una risposta chiara e chiara dall’open source all’operatore in Openi.

Perché sì, siamo lì & mldr; Anche la nostra pigrizia ora ha la sua intelligenza artificiale.

SCR 20250507 JQFX

Ma allora cos’è di nuovo questo agente? Bene, è chiaramente un tirocinante virtuale un po ‘lento ma determinato, in grado di utilizzare un computer Linux come faresti. Per funzionare, Open Computer Agent utilizza una macchina virtuale ospitata nella nuvola facciale abbracciata, dotata di Firefox e altre applicazioni. Gli dai un’istruzione in linguaggio naturale e la eseguirà come umano, vale a dire aprire applicazioni, navigare nel Web, fare clic sui pulsanti, riempire i moduli & mldr;

Dietro questa interfaccia nasconde una tecnologia abbastanza impressionante poiché l’agente si basa sui modelli di visione Qwen-VL che hanno una capacità nativa di “macinazione” (in sostanza, possono individuare qualsiasi elemento in un’immagine per le sue coordinate) ed è questa capacità che consente all’agente di “vedere” lo schermo e sapere dove fare clic, come se un essere umano stesse guardando l’interfaccia.

Per iniziare, vai a https://huggingface.co/spaces/smolagents/computer-agent. Vedrai quindi un’interfaccia minimalista, vale a dire un campo per inserire le istruzioni, un pulsante “Andiamo!” E una finestra che visualizza il computer virtuale che l’agente utilizzerà.

Una volta lanciata la richiesta, sarai probabilmente posto in una coda virtuale che, a seconda del tempo, può richiedere da pochi secondi a diversi minuti. E una volta che il tuo turno verrà, vedrai muoversi il cursore del mouse e l’IA usa questo computer virtuale.

SCR 20250507 JTNR

Primo test, semplice: “Find Me Pictures of Manuel Dorne (Korben)“. Faccio clic su Let’s Go e & Mldr; Magic! L’agente apre Firefox, va su Google, ottiene la ricerca, fai clic sulle immagini e inizia a sfogliare i risultati. Beh, mette circa 45 secondi per fare ciò che faresti in 10, ma è ancora abbastanza affascinante vedere questo robot virtuale manipolare un’interfaccia per gli esseri umani.

SCR 20250507 JTPZ

SCR 20250507 JZZJ

Proviamo qualcosa di più complesso. “” “Usa Google Maps per trovare la Cattedrale di Clermont-Ferrand“Questa volta, l’agente naviga su Google Maps, il nastro” Cathedral Clermont-Ferrand “nella barra di ricerca, e in effetti trova il posto. Non male!

È divertente ma chiaramente inutilizzabile su base giornaliera perché l’agente è lento. Scusa, molto molto molto lento. Ogni azione richiede diversi lunghi secondi o addirittura minuti, è quasi inutilizzabile. E guai a te se appare un captcha perché l’agente si perderà completamente di fronte a questi test progettati proprio per distinguere gli umani dai robot. In questo caso, ti consiglio di interrompere l’agente e di risolvere il captcha da solo, che rompe un po ‘il fascino della cosa.

SCR 20250507 JZBT

Ho anche provato compiti più complessi, come la ricerca di voli ma è stato un fallimento totale. L’agente si è perso nei menu e nei calendari di caduta. Ha finito per arrendersi dopo aver fatto clic a caso per due minuti. Anche altre volte, le richieste erano così lunghe che il computer virtuale si sta mettendo in standby o perde la sua connessione.

Quindi, se vuoi testare, ecco alcuni suggerimenti:

– Sii preciso nelle tue istruzioni
– Inizia con compiti semplici
– Sii paziente (molto paziente)
– In caso di blocco, utilizzare il pulsante “Stop the Agent” nella parte inferiore dell’interfaccia e ricaricare la pagina.

Oltre a questi limiti, ciò che è veramente interessante qui è ciò che questo strumento rappresenta. Mentre Optai sta facendo il bellissimo con il suo agente operatore del proprietario, Huging Face mostra che la comunità open source non deve essere superata. È la versione democratizzata di una tecnologia che alla fine potrebbe cambiare il nostro modo quotidiano di interagire con i nostri computer.

Immagina un po ‘il potenziale & mldr; Oggi l’agente può svolgere ricerche di base sul Web. Ma domani, con miglioramenti, potrebbe automatizzare compiti ripetitivi come il riempimento di moduli amministrativi, il monitoraggio dei siti per avvisare le modifiche o persino fare shopping online mentre dormi o galleggi nella tua jacuzzi. La bella vita!

Per le persone con mobilità ridotta, questo tipo di tecnologia potrebbe anche rappresentare un simpatico professionista nell’accessibilità digitale e per Dev, è anche un buon parco giochi esplorare le possibilità di AI agente senza dipendere dalle soluzioni Proprios.

In breve, c’è ancora molta strada da fare perché l’agente deve diventare più veloce, più affidabile, deve essere in grado di risolvere Captcha e, soprattutto, per comprendere istruzioni più complesse. Ma è proprio perché è open source che questi miglioramenti possano avvenire rapidamente, portati come sempre, da una comunità di sviluppatori entusiasti.

Quindi, se sei curioso di vedere una cambusa virtuale con Firefox esattamente come tuo nonno, scegli lo strumento! È libero ma sii paziente!

Fonte


Source link

Categorized in: