Sie haben es satt, sich auf Ihren Computer zu klicken Als normaler Mensch ? Ist dieses Gefühl, Ihre Maus langsam zu bewegen und auf Ihre Tastatur zu tippen, während Sie auf den Ruhestand warten, dass Sie so 2024 scheinen?

Also habe ich gute Nachrichten für Sie!

Umarmtes Gesicht ist gerade herausgekommen Öffnen Sie den ComputeragentenEin virtueller Open -Source -Roboter, der Ihren PC für Sie verwenden kann, während Sie Ihren Kaffee leise nippen, während Sie sich die Maschine ansehen. Dieses Tool ist seit gestern kostenlos verfügbar und ist eine klare und klare Reaktion von Open Source auf den Betreiber in OpenAI.

Weil ja, wir sind da & mldr; Sogar unsere Faulheit hat jetzt seine KI.

SCR 20250507 JQFX

Aber was ist dann wieder dieser Agent? Nun, es ist eindeutig ein etwas langsamer, aber entschlossener virtueller Auszubildender, der in der Lage ist, einen Linux -Computer so zu verwenden, wie Sie es tun würden. Zum Betrieb verwendet Open Computer Agent eine virtuelle Maschine, die in der umarmenden Gesichtswolke gehostet wird und mit Firefox und anderen Anwendungen ausgestattet ist. Sie geben ihm einen Anweisungen in der natürlichen Sprache und er wird ihn als Mensch ausführen, dh Anwendungen öffnen, im Internet navigieren, auf Schaltflächen klicken, Formulare & MLDR füllen.

Hinter dieser Schnittstelle verbirgt sich eine ziemlich beeindruckende Technologie, da der Agent auf den QWEN-VL-Visionsmodellen basiert, die eine native „Schleifkapazität“ haben (im Grunde können sie jedes Element in einem Bild nach seinen Koordinaten finden). Diese Kapazität ermöglicht es dem Agenten, den Bildschirm zu „sehen“ und zu wissen, wo er klicken kann, wie ein Mensch an der Schnittstelle schaute.

Zu beginnen, gehen Sie zu https://huggingface.co/spaces/smolagents/computer-agent. Sie sehen dann eine minimalistische Oberfläche, nämlich ein Feld, um Ihre Anweisung einzugeben, eine Schaltfläche „Lass uns gehen!“ Und ein Fenster, in dem der virtuelle Computer angezeigt wird, den der Agent verwendet.

Sobald die Anfrage gestartet wurde, werden Sie wahrscheinlich in einer virtuellen Warteschlange platziert, die je nach Zeit von einigen Sekunden bis zu einigen Minuten dauern kann. Und sobald Sie an der Reihe sind, werden Sie den Mauscursor bewegt und KI diesen virtuellen Computer verwendet.

SCR 20250507 JTNR

Erster Test, einfach: “Finden Sie mir Bilder von Manuel Dorne (Korben)Ich klicke auf uns und mldr; Magic! Der Agent öffnet Firefox, geht Google, erhält die Suche, klicke auf Bilder und stöbert die Ergebnisse.

SCR 20250507 JTPZ

SCR 20250507 JZZJ

Versuchen wir etwas Komplexeres. „“ „Verwenden Sie Google Maps, um die Kathedrale von Clermont-Ferrand zu findenDiesmal segelt der Agent nach Google Maps, Klebeband „Kathedrale Clermont-Ferrand“ in der Suchleiste und finde den Ort tatsächlich. Überhaupt nicht schlecht!

Es ist lustig, aber täglich eindeutig unbrauchbar, weil der Agent langsam ist. Entschuldigung, sehr sehr sehr langsam. Jede Aktion dauert mehrere lange Sekunden oder sogar Minuten, sie ist fast unbrauchbar. Und Sie wehe Ihnen, wenn ein Captcha erscheint, weil der Agent angesichts dieser Tests, die genau zur Unterscheidung von Menschen von Robotern unterschieden werden, vollständig verloren geht. In diesem Fall rate ich Ihnen, den Agenten zu unterbrechen und den Captcha selbst zu lösen, was den Charme der Sache ein wenig bricht.

SCR 20250507 JZBT

Ich habe auch komplexere Aufgaben ausprobiert, z. B. nach Flügen, aber es war ein totaler Fehler. Der Agent verlor in den Drop -Down -Menüs und Kalendern. Am Ende gab er auf, nachdem er zwei Minuten lang zufällig geklickt hatte. In anderen Fällen waren die Anfragen auch so lang, dass sich der virtuelle Computer in Standby -Verhältnis stellt oder seine Verbindung verliert.

Wenn Sie also testen möchten, finden Sie hier einige Tipps:

– Seien Sie genau in Ihren Anweisungen
– Beginnen Sie mit einfachen Aufgaben
– geduldig sein (sehr geduldig)
– Verwenden Sie bei der Blockierung die Schaltfläche „Stop die Schaltfläche“ den Agenten „am unteren Rand der Schnittstelle und laden Sie die Seite auf.

Über diese Einschränkungen hinaus ist das, was hier wirklich interessant ist, das, was dieses Tool darstellt. Während Optai das Schöne mit seinem Eigentümerbetreiber Agent macht, zeigt das Umarmungsgesicht, dass die Open -Source -Community nicht übertroffen werden darf. Es ist die demokratisierte Version einer Technologie, die letztendlich unseren täglichen Weg zur Interaktion mit unseren Computern verändern könnte.

Stellen Sie sich das Potenzial ein. Heute kann der Agent Grundlagenforschung im Web durchführen. Aber morgen könnte es mit Verbesserungen sich wiederholende Aufgaben wie das Füllen von Verwaltungsformularen, die Überwachung von Websites zur Warnung oder sogar Ihre Einkäufe online automatisieren oder sogar online einkaufen, während Sie schlafen oder in Ihrem Whirlpool schweben. Das schöne Leben!

Für Menschen mit reduzierter Mobilität könnte diese Art von Technologie sogar einen netten Fachmann in der digitalen Zugänglichkeit darstellen, und für Dev ist es auch ein guter Spielplatz, um die Möglichkeiten der agenten -KI zu untersuchen, ohne von Proprios -Lösungen abhängig zu sein.

Kurz gesagt, es ist noch ein langer Weg vor uns, da der Agent schneller und zuverlässiger werden muss, Captcha auflösen und vor allem komplexere Anweisungen verstehen muss. Genau deshalb, weil Open Source diese Verbesserungen schnell und wie immer von einer Gemeinschaft begeisterter Entwickler erfolgen können.

Wenn Sie also neugierig sind, eine virtuelle Roboter -Galeere mit Firefox genau wie Ihr Großvater zu sehen, gehen Sie für das Werkzeug! Er ist frei, aber sei geduldig!

Quelle


Source link

Kategorisiert als: