Der Computer, der sich selbst bedient
Ein neues Framework ermöglicht es künstlicher Intelligenz, dass sie Mausklicks und Tastatureingaben selbstständig steuert – genau wie ein Mensch.
Josh Bickett, Entwickler bei OthersideAI, hatte eine innovative Vision: ein «selbstbetriebenes Computer-Framework». Und tatsächlich: Seine Idee könnte die Art und Weise, wie wir mit Computern interagieren, auf ein ganz neues Level heben.
Ein Durchbruch in der KI-Steuerung
Bisherige Ansätze zur Steuerung von Computern durch KI basierten hauptsächlich auf APIs. Das neue Framework geht einen Schritt weiter.
Denn: Es nimmt Screenshots des Computers als Input und gibt Mausklicks sowie Tastaturbefehle aus. Ganz so wie ein menschlicher Benutzer.
Matt Shumer, Mitgründer und CEO von OthersideAI, betont, dass die Welt von Menschen für Menschen gemacht sei. Wenn man also etwas entwickeln möchte, das autonom agiert, und zwar zu unseren Gunsten, muss es funktionieren können wie ein Mensch.
Künstliche Intelligenz wird zum digitalen Interface
Ist dieses Framework weit genug entwickelt, könnten fortgeschrittene KI-Modelle alle Interaktionen mit dem Computer übernehmen – nur durch gesprochene Befehle. Die KI könnte sich auf Geschwindigkeit für einfache Aufgaben oder komplexe Denkprozesse konzentrieren, je nach Bedarf.
Der Experte sieht eine Zukunft, in der Menschen sagen können: «Das ist, was ich zu tun hasse. Jetzt muss ich es endlich nicht mehr machen!» Und das soll so einfach sein, dass selbst jemand mit geringen Computerkenntnissen damit umgehen kann.
Open Source ermöglicht weltweite Zusammenarbeit
Durch die Open-Source-Natur des Frameworks könnten Entwickler weltweit neue Anwendungen ausprobieren und den Fortschritt noch beschleunigen.
Es gibt Raum für viele verschiedene Modelle und Anwendungen – und somit auch Möglichkeiten für grosse Unternehmen. Damit diese Vision von intelligenten Computeragenten zum Leben erweckt werden kann, braucht es aber noch erhebliche Ressourcen und kontinuierliche Innovation.
Hier kommt Imbue ins Spiel, ein AI-Forschungsunternehmen (ehemals Generally Intelligent), das kürzlich eine Partnerschaft mit Dell im Wert von 150 Millionen Dollar eingegangen ist.
Auf dem Weg zur künstlichen Allgemeinintelligenz
Mit einem Cluster von rund 10'000 Nvidia H100 GPUs will Imbue neue Grundmodelle entwickeln, die speziell auf Denkfähigkeiten optimiert sind.
Robustes logisches Denken ist entscheidend für wirklich effektive KI-Agenten: Sie müssen Unsicherheiten bewältigen können, Ansätze anpassen, neue Informationen sammeln und komplexe Entscheidungen treffen können.
Experten sehen in diesem selbst betriebenen Computer-Framework nur den ersten Schritt. Sie träumen von einer neuen Ära, in der ausgefeilte KI-Agenten menschliche Computer-Schnittstellen vollständig ersetzen.