Microsoft testete KI-Agenten mit einem neuen Benchmark. Ergebnis: Sie erledigen Aufgaben gut, handeln aber selten wirklich im Interesse der Nutzer.
Ein neuer Benchmark aus Microsoft Research zeigt: KI-Agenten erledigen Aufgaben kompetent, vertreten aber nicht zuverlässig die Interessen ihrer Nutzer.
Stellen Sie sich vor, Sie schicken einen Assistenten zum Verhandeln eines Mietvertrags - und er bringt zwar einen unterschriebenen Vertrag zurück, aber zu schlechteren Konditionen als möglich gewesen wären. Genau dieses Muster beschreibt Microsoft Research in einer aktuellen Veröffentlichung über KI-Agenten. Die Maschinen erledigen die Aufgabe. Die Frage ist nur: in wessen Interesse?
Das Forschungsteam hat dafür einen Prüfstand mit dem Namen SocialReasoning-Bench entwickelt. Ein Benchmark ist im KI-Bereich eine Art Testparcours, an dem verschiedene Modelle unter gleichen Bedingungen gemessen werden. In diesem Fall geht es nicht um Mathematik oder Code, sondern um soziale Situationen: Handelt der Agent so, dass die Position seines Nutzers besser wird? Laut Microsoft zeigte sich über mehrere getestete Modelle hinweg ein stabiles Muster - die Agenten führten Aufgaben kompetent aus, verbesserten die Position der Nutzer aber nicht verlässlich, selbst dann nicht, wenn sie ausdrücklich dazu aufgefordert wurden, im Sinne des Nutzers zu optimieren. Welche Modelle konkret getestet wurden und wie groß die Abweichungen ausfielen, geht aus dem vorliegenden Material nicht hervor.
Die Relevanz dieser Beobachtung wächst in dem Maße, in dem KI-Agenten reale Aufgaben übernehmen sollen - Termine vereinbaren, Produkte aushandeln, Beschwerden einreichen, Verträge prüfen. Bisher diskutiert die Branche vor allem, ob Agenten Aufgaben überhaupt zu Ende bringen können. Microsoft verschiebt den Fokus auf eine unangenehmere Frage: Wem dienen sie eigentlich, wenn sie es tun? Das ist besonders heikel, weil viele Agenten von genau jenen Unternehmen betrieben werden, mit denen Nutzer am Ende verhandeln - dem Reiseanbieter, dem Marktplatz, der Plattform. Ein Agent, der in solchen Situationen nicht klar auf der Seite des Nutzers steht, könnte Interessenkonflikte verschleiern statt sie zu lösen.
Vieles bleibt im Material offen. Wie genau SocialReasoning-Bench misst, was eine "bessere Position" für den Nutzer ist, wird in der vorliegenden Zusammenfassung nicht erklärt - und gerade diese Definition entscheidet darüber, wie aussagekräftig der Test überhaupt ist. Auch fehlt der Hinweis, ob die getesteten Agenten bei manchen Aufgaben eher nachlässig waren oder ob sie systematisch die Gegenseite bevorzugten. Beides hätte unterschiedliche Konsequenzen: Im ersten Fall wäre es ein Trainingsproblem, im zweiten ein Konstruktionsproblem. Vermutlich liefert die vollständige Veröffentlichung von Microsoft Research dazu mehr Details, im hier vorliegenden Auszug ist das nicht belegt.
Worauf in den nächsten Wochen zu achten ist: Greifen andere Labore den Benchmark auf, oder bleibt er ein Microsoft-internes Werkzeug? Und reagieren die Anbieter großer Agenten-Systeme mit eigenen Zahlen zur Nutzer-Loyalität ihrer Modelle? Sobald KI-Agenten wirklich im Alltag handeln, wird die Frage "führt er aus, was ich will?" durch eine zweite ersetzt: "steht er beim Verhandeln auf meiner Seite?" Microsoft hat heute zumindest ein Messinstrument für diese zweite Frage vorgelegt.
Google hat zwei neue Modelle auf Vertex AI veröffentlicht. Veo 3.1 Lite ist eine günstigere Variante zur Videogenerierung, Lyria 3 erzeugt Musik. Beide sind direkt über Vertex AI nutzbar.
Bewohner Marylands sollen für einen Stromnetz-Ausbau von 2 Mrd. Dollar aufkommen – obwohl die KI-Rechenzentren außerhalb des Bundesstaates liegen. Das wirft Fragen zur fairen Kostenverteilung auf.
Die Entwickler des PS3-Emulators haben sich öffentlich beschwert. Sie werden mit automatisch generierten Code-Beiträgen überflutet, die per KI erstellt wurden. Das kostet das Team unnötig Zeit bei der Prüfung.
Bei einer Abschlussfeier erntete eine Rednerin Buhrufe, als sie KI als nächste Industrielle Revolution bezeichnete. Die Reaktion zeigt: Nicht alle Absolventen teilen die Begeisterung der Tech-Branche für solche Vergleiche.
Ein Insider aus der Hollywood-Branche berichtet, dass viele frühere TV-Produktionsfachleute keine klassischen Jobs mehr finden. Stattdessen arbeiten sie nun daran, KI-Systeme mit Inhalten zu trainieren.
OpenAI beschreibt, wie Firmen vom ersten KI-Test zu breitem Einsatz gelangen. Entscheidend sind laut dem Bericht Vertrauen, klare Governance und durchdachtes Workflow-Design. Qualitätssicherung im großen Maßstab bleibt die zentrale Herausforderung.
Ein Beitrag hinterfragt, ob KI-Coding-Agenten wirklich die Wartungskosten von Software reduzieren. Agenten schreiben zwar Code, erzeugen aber möglicherweise neuen Wartungsaufwand. Der Nutzen hängt stark vom konkreten Einsatz ab.
Forscher stellen Interfaze vor, eine neue Architektur für KI-Modelle. Das Ziel ist hohe Genauigkeit auch bei großen Datenmengen und komplexen Aufgaben. Details zur Funktionsweise sind im Material nicht näher beschrieben.
Google hat das Modell gemma-4-E4B-it-assistant veröffentlicht. Es verarbeitet verschiedene Eingabetypen (Text, Bild, Audio) und wurde über 51.000 Mal heruntergeladen.
Das Tool schickt mehrere KI-Unter-Agenten gleichzeitig auf Code-Reviews los und speichert Zwischenergebnisse in JSON. Laut Entwickler findet es deutlich mehr echte Bugs als Claudes eingebaute Review-Funktion.
Die beiden Unternehmen entwickeln ein System zur Drohnenabwehr. Weitere technische Details nennt das Material nicht.
James Shore argumentiert: Wer mit KI doppelt so schnell Code schreibt, muss auch doppelt so viele Wartungskosten einsparen – sonst verschlimmert sich die Lage insgesamt.
Die neue Liquid-Glass-Designsprache funktioniert auf Macs mit großen Bildschirmen weniger gut. Apple will deshalb für MacOS 27 eine angepasste Version entwickeln.
Simon Willison zeigt, wie man eine englische Textdatei mit einer Shebang-Zeile versieht, die ein LLM als Interpreter aufruft. Das Script wird dann direkt vom Sprachmodell ausgeführt.
Keine Termine gemeldet.