„Ein Kunstwerk ist niemals fertiggestellt, sondern nur aufgegeben.“
Alle reden über KI-Agenten, aber was sie meinen, ist nicht dasselbe, was zu unterschiedlichen Verständnissen von KI-Agenten führt, aus unserer Perspektive, der des Publikums und der KI-Praktizierenden.
Vor langer Zeit habe ich geschrieben, dass Krypto ist die Illusion von KI. Seitdem ist die Kombination von Krypto und KI eine einseitige Liebesbeziehung geblieben. KI-Praktiker erwähnen nur selten Web3 oder Blockchain, während Krypto-Enthusiasten tief in KI verliebt sind. Nachdem wir das Phänomen beobachtet haben, bei dem KI-Agenten-Frameworks sogar tokenisiert werden können, ist es ungewiss, ob dies wirklich KI-Praktiker in unsere Welt bringen könnte.
Krypto ist der Agent von Krypto. Dies ist die beste Annotation aus einer Kryptoperspektive, um den aktuellen KI-Boom zu betrachten. Die Begeisterung von Krypto für KI unterscheidet sich von anderen Branchen; wir hoffen insbesondere, die Ausgabe und den Betrieb von Finanzanlagen damit zu integrieren.
Im Kern hat der AI-Agent mindestens drei Quellen. OpenAI's AGI (Artificial General Intelligence) betrachtet dies als einen wichtigen Schritt und verwandelt den Begriff in ein beliebtes Schlagwort jenseits technischer Kreise. Allerdings ist ein Agent im Wesentlichen kein neues Konzept. Selbst mit AI-Befähigung ist es schwer zu sagen, dass es ein revolutionärer technologischer Trend ist.
Die erste Quelle ist der KI-Agent, wie er von OpenAI gesehen wird. Ähnlich wie Level L3 beim autonomen Fahren kann ein KI-Agent als eine Art fortgeschrittene Assistenzfähigkeit angesehen werden, die jedoch noch nicht in der Lage ist, einen Menschen vollständig zu ersetzen.
Bildunterschrift: AGI-Phase der OpenAI-Planung
Bildquelle: https://www.bloomberg.com/
Die zweite Quelle ist, wie der Name schon sagt, der KI-Agent, der ein von KI unterstützter Agent ist. Das Konzept von Agentur und Delegationsmechanismen ist in der Informatik nicht neu. Unter OpenAI's Vision wird der Agent die L3-Stufe nach konversationellen Formen (wie ChatGPT) und Schlussfolgerungsformen (wie verschiedene Bots) einnehmen. Das Hauptmerkmal dieser Stufe ist die Fähigkeit, bestimmte Verhaltensweisen autonom auszuführen," oder, wie es Harrison Chase, der Gründer von LangChain, definiert: "Ein KI-Agent ist ein System, das LLM (Large Language Model) verwendet, um Steuerungsflussentscheidungen in einem Programm zu treffen."
Hier wird es spannend. Vor dem Aufkommen von LLMs führte ein Agent in erster Linie Automatisierungsprozesse aus, die von Menschen festgelegt wurden. Zum Beispiel würden Programmierer beim Entwerfen eines Web-Scrapers einen User-Agent einstellen, um Details wie die Browserversion und das Betriebssystem zu simulieren, die von echten Benutzern verwendet werden. Wenn ein KI-Agent eingesetzt würde, um menschliches Verhalten genauer nachzuahmen, könnte dies zur Erstellung eines KI-Agent-basierten Web-Scraper-Frameworks führen, das den Scraper "menschenähnlicher" macht.
Bei solchen Übergängen muss die Einführung von KI-Agenten mit vorhandenen Szenarien integriert werden, da völlig neue Felder kaum existieren. Selbst Code-Vervollständigung und Generierungsfähigkeiten in Tools wie Curosr und Github Copilot sind lediglich funktionale Verbesserungen im Rahmen des LSP (Language Server Protocol), mit zahlreichen Beispielen für eine solche Entwicklung:
Um es zu klären, in der Mensch-Computer-Interaktion ermöglichte die Kombination aus GUI von Web 1.0 und Browsern der Öffentlichkeit tatsächlich die Nutzung von Computern ohne Barrieren, dargestellt durch die Kombination von Windows und IE. APIs wurden zum Datenabstraktions- und Übertragungsstandard hinter dem Internet, und während der Ära des Web 2.0 tauchten Browser wie Chrome auf, wobei sich mit einem Wechsel zu mobilen Geräten die Internetnutzungsgewohnheiten der Menschen änderten. Super-Apps wie WeChat und Meta-Plattformen decken nun jeden Aspekt des Lebens der Menschen ab.
Die dritte Quelle ist das Konzept des „Intent“ im Kryptobereich, das zu einem Anstieg des Interesses an KI-Agenten geführt hat. Beachten Sie jedoch, dass dies nur innerhalb des Kryptobereichs gilt. Vom begrenzten Funktionsumfang der Bitcoin-Skripte bis hin zu den intelligenten Verträgen von Ethereum wurde das Agentenkonzept selbst weit verbreitet verwendet. Die anschließende Entstehung von cross-chain bridges, chain abstractions, EOA (Externally Owned Accounts) zu AA (Account Abstraction) Wallets sind natürliche Erweiterungen dieser Denkrichtung. Daher ist es nicht überraschend, dass AI-Agenten „invasiv“ im Kryptobereich auftreten und natürlicherweise zu DeFi-Szenarien führen.
Hier entsteht die Verwirrung um das Konzept des KI-Agenten. Im Kontext von Krypto versuchen wir tatsächlich, ein „automatisiertes Finanzmanagement, automatisierte Meme-Erzeugung“-Agent zu erreichen. Nach der Definition von OpenAI würde ein derart riskantes Szenario jedoch die tatsächliche Implementierung von L4 oder L5 erfordern. In der Zwischenzeit experimentiert die Öffentlichkeit mit automatischer Codegenerierung oder KI-unterstützter Zusammenfassung und Schreibhilfe, die nicht auf demselben Niveau sind wie die Ziele, die wir verfolgen.
Sobald wir verstehen, was wir wirklich wollen, können wir uns auf die organisatorische Logik von Krypto-Agenten konzentrieren. Die technischen Details werden folgen, da das Konzept eines Krypto-Agenten letztendlich darauf abzielt, die Barrieren für die weitreichende Technologieübernahme zu beseitigen, ähnlich wie Browser die PC-Industrie revolutionierten. Unser Fokus wird auf zwei Punkten liegen: die Untersuchung von Krypto-Agenten aus der Perspektive der Mensch-Computer-Interaktion und das Verständnis der Unterschiede und Verbindungen zwischen Krypto-Agenten und LLMs, was uns zum dritten Teil führen wird: Was die Kombination von Krypto und Krypto-Agenten letztendlich hinterlassen wird.
Bevor Gesprächsmodelle für die Interaktion zwischen Mensch und Computer wie ChatGPT aufkamen, waren die primären Formen der Mensch-Computer-Interaktion GUI (Grafische Benutzeroberfläche) und CLI (Befehlszeilenschnittstelle). Die GUI-Mentalität entwickelte sich zu verschiedenen spezifischen Formen wie Browsern und Apps, während die Kombination von CLI und Shell nur minimale Veränderungen sah.
Aber das ist nur die „Frontend“ der Mensch-Computer-Interaktion. Da sich das Internet weiterentwickelt hat, hat die Zunahme des Datenvolumens und der Vielfalt zu mehr „Backend“-Interaktionen zwischen Daten und zwischen Apps geführt. Diese beiden Aspekte sind voneinander abhängig - selbst eine einfache Web-Browsing-Aktion erfordert tatsächlich ihre Zusammenarbeit.
Wenn die menschliche Interaktion mit Browsern und Apps als Einstiegspunkt für den Benutzer betrachtet wird, unterstützen die Verknüpfungen und Übergänge zwischen APIs den eigentlichen Betrieb des Internets. Dies ist in der Tat auch Teil des Agenten. Normale Benutzer müssen Begriffe wie Befehlszeilen und APIs nicht verstehen, um ihre Ziele zu erreichen.
Gleiches gilt für LLMs. Jetzt können Benutzer noch weiter gehen - es ist kein Suchen mehr erforderlich. Der gesamte Prozess kann in den folgenden Schritten beschrieben werden:
Es kann festgestellt werden, dass die größte Herausforderung bei diesem Prozess Google ist, da Benutzer keine Suchmaschine öffnen müssen, sondern verschiedene GPT-ähnliche Dialogfenster, und der Traffic-Eingang ändert sich leise. Aus diesem Grund denken einige Leute, dass diese LLM die Lebensweise von Suchmaschinen revolutioniert.
Also, welche Rolle spielt der KI-Agent in diesem Prozess?
Kurz gesagt ist der AI-Agent eine spezialisierte Erweiterung von LLM.
Aktuelle LLMs sind keine AGI (Artificial General Intelligence) und sind weit entfernt von dem von OpenAI vorgesehenen L5-Organisator. Ihre Fähigkeiten sind signifikant begrenzt. Zum Beispiel neigen LLMs zu Halluzinationen, wenn sie zu viel Benutzereingaben erhalten. Ein wesentlicher Grund liegt im Trainingsmechanismus. Wenn Sie GPT beispielsweise wiederholt sagen, dass 1+1=3, besteht die Wahrscheinlichkeit, dass es bei der Frage nach 1+1+1=? mit 4 antwortet.
Dies liegt daran, dass das Feedback von GPT vollständig aus Benutzereingaben abgeleitet wird. Wenn das Modell nicht mit dem Internet verbunden ist, ist es möglich, dass seine Funktionsweise durch Ihre Eingaben geändert wird, was zu einem Modell führt, das nur 1+1=3 "kennt". Wenn das Modell jedoch eine Verbindung zum Internet herstellen kann, wird sein Rückkopplungsmechanismus vielfältiger, da die überwiegende Mehrheit der Online-Daten bestätigen würde, dass 1+1=2 ist.
Was ist, wenn wir LLMs lokal verwenden müssen und solche Probleme vermeiden möchten?
Eine einfache Lösung besteht darin, zwei LLMs gleichzeitig zu verwenden, die sich gegenseitig validieren müssen, um die Wahrscheinlichkeit von Fehlern zu reduzieren. Wenn das nicht ausreicht, könnte ein anderer Ansatz darin bestehen, dass zwei Benutzer einen einzigen Prozess bearbeiten - einer stellt die Fragen und der andere verfeinert sie -, um die Sprache präziser und logischer zu machen.
Natürlich löst die Verbindung zum Internet nicht vollständig alle Probleme. Wenn das LLM beispielsweise Antworten aus unzuverlässigen Quellen abruft, könnte sich die Situation verschlechtern. Die Vermeidung solcher Daten reduziert jedoch die verfügbaren Informationen. Um dies zu beheben, können vorhandene Daten aufgeteilt, neu kombiniert oder sogar verwendet werden, um neue Daten basierend auf älteren Datensätzen zu generieren, um die Zuverlässigkeit der Antworten zu erhöhen. Dieser Ansatz entspricht im Wesentlichen dem Konzept von RAG (Retrieval-Augmented Generation) in der natürlichen Sprachverarbeitung.
Menschen und Maschinen müssen sich verstehen. Wenn mehrere LLMs zusammenarbeiten und interagieren, nutzen wir im Wesentlichen das Betriebsmodell von KI-Agenten. Diese dienen als menschliche Stellvertreter, die auf andere Ressourcen zugreifen, einschließlich großer Modelle und anderer Agenten.
Dies führt uns zur Verbindung zwischen LLMs und KI-Agenten:
LLMs sind Wissensaggregationen, mit denen Menschen über Chat-Schnittstellen interagieren. In der Praxis können jedoch bestimmte Workflows in kleinere Programme, Bots oder Anweisungssätze komprimiert werden. Diese werden als Agenten definiert.
AI-Agenten bleiben eine Untermenge von LLMs, sollten aber nicht mit ihnen gleichgesetzt werden. Das charakteristische Merkmal von AI-Agenten liegt in ihrer Betonung der Zusammenarbeit mit externen Programmen, LLMs und anderen Agenten. Deshalb fassen Menschen AI-Agenten oft als LLM + API zusammen.
Um dies im LLM-Workflow zu veranschaulichen, nehmen wir das Beispiel eines API-Aufrufs durch einen KI-Agenten:
Erinnern Sie sich noch an die Entwicklung der Mensch-Computer-Interaktion? Browser, APIs und andere Elemente aus dem Web 1.0 und Web 2.0 existieren weiterhin, aber die Benutzer müssen nicht mehr direkt mit ihnen interagieren. Stattdessen können sie einfach mit KI-Agenten in Kontakt treten. API-Aufrufe und damit verbundene Prozesse können alle dialogorientiert durchgeführt werden. Diese API-Dienste können jede Art von Daten umfassen, ob lokal, online oder von externen Apps, solange die Schnittstellen offen sind und die Benutzer über die erforderlichen Berechtigungen verfügen, um darauf zuzugreifen.
Ein vollständiger AI-Agenten-Workflow, wie oben gezeigt, behandelt LLM entweder als separaten Bestandteil des AI-Agenten oder als zwei Unterprozesse innerhalb eines Workflows. Unabhängig davon, wie sie aufgeteilt sind, ist das Ziel immer, den Bedürfnissen des Benutzers zu dienen. Aus der Perspektive der Mensch-Computer-Interaktion kann es sich sogar so anfühlen, als ob Benutzer mit sich selbst sprechen. Sie müssen nur Ihre Gedanken vollständig ausdrücken, und der AI/LLM/AI-Agent wird Ihre Bedürfnisse wiederholt erraten. Durch die Integration von Feedback-Mechanismen und die Gewährleistung, dass das LLM den aktuellen Kontext speichert, vermeidet der AI-Agent, seine Aufgaben aus den Augen zu verlieren.
Zusammenfassend sind KI-Agenten personalisiertere und humanisiertere Kreationen, die sie von traditionellen Skripten und Automatisierungswerkzeugen unterscheiden. Sie wirken wie persönliche Assistenten und berücksichtigen die tatsächlichen Bedürfnisse des Benutzers. Es ist jedoch wichtig anzumerken, dass diese Personalisierung immer noch auf probabilistischer Inferenz basiert. Ein KI-Agent der Stufe L3 besitzt keine menschenähnlichen Verständnis- und Ausdrucksfähigkeiten, was seine Integration mit externen APIs von Natur aus riskant macht.
Die Fähigkeit, KI-Frameworks zu monetarisieren, ist einer der Hauptgründe, warum ich mich für Krypto interessiere. In traditionellen KI-Technologie-Stacks sind Frameworks nicht besonders wichtig, zumindest nicht im Vergleich zu Daten und Rechenleistung. Die Monetarisierung von KI-Produkten beginnt selten mit dem Framework, da die meisten KI-Algorithmen und Modell-Frameworks Open Source sind. Was proprietär bleibt, sind sensible Elemente wie Daten.
Im Wesentlichen sind KI-Frameworks oder -Modelle Container und Kombinationen von Algorithmen, ähnlich einem Topf zum Garen von Gans. Die Qualität der Gans und die Beherrschung des Kochprozesses sind jedoch das, was den Geschmack wirklich definiert. In der Theorie sollte das zum Verkauf stehende Produkt die Gans sein, aber Web3-Kunden scheinen den Topf zu kaufen und die Gans wegzuwerfen.
Der Grund dafür ist nicht kompliziert. Die meisten Web3 Krypto-KI-Produkte bauen auf bestehenden KI-Frameworks, Algorithmen und Produkten auf, indem sie diese für ihre Zwecke anpassen. Tatsächlich unterscheiden sich die technischen Prinzipien hinter verschiedenen Krypto-KI-Frameworks nicht stark voneinander. Da die Technologie selbst keine Unterscheidung aufweist, richtet sich die Aufmerksamkeit auf Branding, Anwendungsszenarien und andere oberflächliche Unterscheidungen. Selbst geringfügige Anpassungen des KI-Frameworks bilden somit die Grundlage für die Unterstützung verschiedener Tokens, was zu einer Framework-Blase innerhalb von Krypto-KI-Agenten-Ökosystemen führt.
Da keine umfangreiche Investition in Schulungsdaten oder Algorithmen erforderlich ist, wird die Unterscheidung von Frameworks anhand des Namens besonders wichtig. Selbst ein erschwingliches Framework wie DeepSeek V3 erfordert immer noch erhebliche Kosten in Bezug auf GPU-Leistung, Strom und Aufwand.
In gewisser Weise passt dies zu einem aktuellen Trend von Web3: Plattformen, die Tokens ausgeben, sind oft wertvoller als die Tokens selbst. Projekte wie Pump.Fun und Hyperliquid sind hierfür Beispiele. Ursprünglich sollten Agents Anwendungen und Vermögenswerte repräsentieren, aber die Frameworks, die Agents ausgeben, sind mittlerweile die begehrtesten Waren geworden.
Dies spiegelt eine Form der Wertverankerung wider. Da Agenten keine Unterscheidung aufweisen, werden Rahmenbedingungen für die Ausgabe von Agenten stabiler und erzeugen einen Wertabsaugungseffekt für die Vermögensausgabe. Dies markiert die Version 1.0 der Integration von Krypto und KI-Agenten.
Die Version 2.0 taucht jetzt auf, exemplarisch durch die Konvergenz von Krypto-Finanzwesen und KI-Agenten. Während das Konzept von Krypto-Finanzwesen und KI möglicherweise durch Markthype ausgelöst wurde, legt ein genauerer Blick auf die folgenden Trends das Gegenteil nahe:
Im Hintergrund dieser DeFi-Transformation gestaltet KI die grundlegende Logik von DeFi neu. Zuvor bestand die Kernlogik von DeFi darin, die Machbarkeit von Smart Contracts zu überprüfen. Jetzt verändern KI-Agenten die Herstellungslogik von DeFi. Sie müssen DeFi nicht mehr verstehen, um DeFi-Produkte zu erstellen. Dies stellt einen Schritt über die Kettenabstraktion hinaus dar und bietet eine tiefere grundlegende Befähigung.
Das Zeitalter, in dem jeder Programmierer sein kann, steht kurz bevor. Komplexe Berechnungen können an die LLM und APIs hinter KI-Agenten ausgelagert werden, sodass Einzelpersonen sich ausschließlich auf ihre Ideen konzentrieren können. Natürliche Sprache kann effizient in Programmlogik umgewandelt werden.
Dieser Artikel erwähnt keine Krypto-KI-Agenten-Token oder -Frameworks, da Cookie.Fun bereits einen ausgezeichneten Job gemacht hat - eine Plattform für die Aggregation von KI-Agenteninformationen und die Entdeckung von Tokens, gefolgt von KI-Agenten-Frameworks und schließlich dem flüchtigen Aufkommen und Verschwinden von Agenten-Token. Eine weitere Auflistung solcher Informationen hier hätte nur wenig Wert.
Allerdings mangelt es dem Markt während dieses Zeitraums laut Beobachtungen noch immer an einer sinnvollen Diskussion darüber, worauf Krypto-KI-Agenten letztendlich abzielen. Wir können uns nicht immer auf die Zeiger konzentrieren; die Essenz liegt in den Veränderungen auf der Speicherebene.
Gerade die sich ständig weiterentwickelnde Fähigkeit, verschiedene Vermögenswerte in tokenisierte Formen umzuwandeln, macht Krypto so faszinierend.
„Ein Kunstwerk ist niemals fertiggestellt, sondern nur aufgegeben.“
Alle reden über KI-Agenten, aber was sie meinen, ist nicht dasselbe, was zu unterschiedlichen Verständnissen von KI-Agenten führt, aus unserer Perspektive, der des Publikums und der KI-Praktizierenden.
Vor langer Zeit habe ich geschrieben, dass Krypto ist die Illusion von KI. Seitdem ist die Kombination von Krypto und KI eine einseitige Liebesbeziehung geblieben. KI-Praktiker erwähnen nur selten Web3 oder Blockchain, während Krypto-Enthusiasten tief in KI verliebt sind. Nachdem wir das Phänomen beobachtet haben, bei dem KI-Agenten-Frameworks sogar tokenisiert werden können, ist es ungewiss, ob dies wirklich KI-Praktiker in unsere Welt bringen könnte.
Krypto ist der Agent von Krypto. Dies ist die beste Annotation aus einer Kryptoperspektive, um den aktuellen KI-Boom zu betrachten. Die Begeisterung von Krypto für KI unterscheidet sich von anderen Branchen; wir hoffen insbesondere, die Ausgabe und den Betrieb von Finanzanlagen damit zu integrieren.
Im Kern hat der AI-Agent mindestens drei Quellen. OpenAI's AGI (Artificial General Intelligence) betrachtet dies als einen wichtigen Schritt und verwandelt den Begriff in ein beliebtes Schlagwort jenseits technischer Kreise. Allerdings ist ein Agent im Wesentlichen kein neues Konzept. Selbst mit AI-Befähigung ist es schwer zu sagen, dass es ein revolutionärer technologischer Trend ist.
Die erste Quelle ist der KI-Agent, wie er von OpenAI gesehen wird. Ähnlich wie Level L3 beim autonomen Fahren kann ein KI-Agent als eine Art fortgeschrittene Assistenzfähigkeit angesehen werden, die jedoch noch nicht in der Lage ist, einen Menschen vollständig zu ersetzen.
Bildunterschrift: AGI-Phase der OpenAI-Planung
Bildquelle: https://www.bloomberg.com/
Die zweite Quelle ist, wie der Name schon sagt, der KI-Agent, der ein von KI unterstützter Agent ist. Das Konzept von Agentur und Delegationsmechanismen ist in der Informatik nicht neu. Unter OpenAI's Vision wird der Agent die L3-Stufe nach konversationellen Formen (wie ChatGPT) und Schlussfolgerungsformen (wie verschiedene Bots) einnehmen. Das Hauptmerkmal dieser Stufe ist die Fähigkeit, bestimmte Verhaltensweisen autonom auszuführen," oder, wie es Harrison Chase, der Gründer von LangChain, definiert: "Ein KI-Agent ist ein System, das LLM (Large Language Model) verwendet, um Steuerungsflussentscheidungen in einem Programm zu treffen."
Hier wird es spannend. Vor dem Aufkommen von LLMs führte ein Agent in erster Linie Automatisierungsprozesse aus, die von Menschen festgelegt wurden. Zum Beispiel würden Programmierer beim Entwerfen eines Web-Scrapers einen User-Agent einstellen, um Details wie die Browserversion und das Betriebssystem zu simulieren, die von echten Benutzern verwendet werden. Wenn ein KI-Agent eingesetzt würde, um menschliches Verhalten genauer nachzuahmen, könnte dies zur Erstellung eines KI-Agent-basierten Web-Scraper-Frameworks führen, das den Scraper "menschenähnlicher" macht.
Bei solchen Übergängen muss die Einführung von KI-Agenten mit vorhandenen Szenarien integriert werden, da völlig neue Felder kaum existieren. Selbst Code-Vervollständigung und Generierungsfähigkeiten in Tools wie Curosr und Github Copilot sind lediglich funktionale Verbesserungen im Rahmen des LSP (Language Server Protocol), mit zahlreichen Beispielen für eine solche Entwicklung:
Um es zu klären, in der Mensch-Computer-Interaktion ermöglichte die Kombination aus GUI von Web 1.0 und Browsern der Öffentlichkeit tatsächlich die Nutzung von Computern ohne Barrieren, dargestellt durch die Kombination von Windows und IE. APIs wurden zum Datenabstraktions- und Übertragungsstandard hinter dem Internet, und während der Ära des Web 2.0 tauchten Browser wie Chrome auf, wobei sich mit einem Wechsel zu mobilen Geräten die Internetnutzungsgewohnheiten der Menschen änderten. Super-Apps wie WeChat und Meta-Plattformen decken nun jeden Aspekt des Lebens der Menschen ab.
Die dritte Quelle ist das Konzept des „Intent“ im Kryptobereich, das zu einem Anstieg des Interesses an KI-Agenten geführt hat. Beachten Sie jedoch, dass dies nur innerhalb des Kryptobereichs gilt. Vom begrenzten Funktionsumfang der Bitcoin-Skripte bis hin zu den intelligenten Verträgen von Ethereum wurde das Agentenkonzept selbst weit verbreitet verwendet. Die anschließende Entstehung von cross-chain bridges, chain abstractions, EOA (Externally Owned Accounts) zu AA (Account Abstraction) Wallets sind natürliche Erweiterungen dieser Denkrichtung. Daher ist es nicht überraschend, dass AI-Agenten „invasiv“ im Kryptobereich auftreten und natürlicherweise zu DeFi-Szenarien führen.
Hier entsteht die Verwirrung um das Konzept des KI-Agenten. Im Kontext von Krypto versuchen wir tatsächlich, ein „automatisiertes Finanzmanagement, automatisierte Meme-Erzeugung“-Agent zu erreichen. Nach der Definition von OpenAI würde ein derart riskantes Szenario jedoch die tatsächliche Implementierung von L4 oder L5 erfordern. In der Zwischenzeit experimentiert die Öffentlichkeit mit automatischer Codegenerierung oder KI-unterstützter Zusammenfassung und Schreibhilfe, die nicht auf demselben Niveau sind wie die Ziele, die wir verfolgen.
Sobald wir verstehen, was wir wirklich wollen, können wir uns auf die organisatorische Logik von Krypto-Agenten konzentrieren. Die technischen Details werden folgen, da das Konzept eines Krypto-Agenten letztendlich darauf abzielt, die Barrieren für die weitreichende Technologieübernahme zu beseitigen, ähnlich wie Browser die PC-Industrie revolutionierten. Unser Fokus wird auf zwei Punkten liegen: die Untersuchung von Krypto-Agenten aus der Perspektive der Mensch-Computer-Interaktion und das Verständnis der Unterschiede und Verbindungen zwischen Krypto-Agenten und LLMs, was uns zum dritten Teil führen wird: Was die Kombination von Krypto und Krypto-Agenten letztendlich hinterlassen wird.
Bevor Gesprächsmodelle für die Interaktion zwischen Mensch und Computer wie ChatGPT aufkamen, waren die primären Formen der Mensch-Computer-Interaktion GUI (Grafische Benutzeroberfläche) und CLI (Befehlszeilenschnittstelle). Die GUI-Mentalität entwickelte sich zu verschiedenen spezifischen Formen wie Browsern und Apps, während die Kombination von CLI und Shell nur minimale Veränderungen sah.
Aber das ist nur die „Frontend“ der Mensch-Computer-Interaktion. Da sich das Internet weiterentwickelt hat, hat die Zunahme des Datenvolumens und der Vielfalt zu mehr „Backend“-Interaktionen zwischen Daten und zwischen Apps geführt. Diese beiden Aspekte sind voneinander abhängig - selbst eine einfache Web-Browsing-Aktion erfordert tatsächlich ihre Zusammenarbeit.
Wenn die menschliche Interaktion mit Browsern und Apps als Einstiegspunkt für den Benutzer betrachtet wird, unterstützen die Verknüpfungen und Übergänge zwischen APIs den eigentlichen Betrieb des Internets. Dies ist in der Tat auch Teil des Agenten. Normale Benutzer müssen Begriffe wie Befehlszeilen und APIs nicht verstehen, um ihre Ziele zu erreichen.
Gleiches gilt für LLMs. Jetzt können Benutzer noch weiter gehen - es ist kein Suchen mehr erforderlich. Der gesamte Prozess kann in den folgenden Schritten beschrieben werden:
Es kann festgestellt werden, dass die größte Herausforderung bei diesem Prozess Google ist, da Benutzer keine Suchmaschine öffnen müssen, sondern verschiedene GPT-ähnliche Dialogfenster, und der Traffic-Eingang ändert sich leise. Aus diesem Grund denken einige Leute, dass diese LLM die Lebensweise von Suchmaschinen revolutioniert.
Also, welche Rolle spielt der KI-Agent in diesem Prozess?
Kurz gesagt ist der AI-Agent eine spezialisierte Erweiterung von LLM.
Aktuelle LLMs sind keine AGI (Artificial General Intelligence) und sind weit entfernt von dem von OpenAI vorgesehenen L5-Organisator. Ihre Fähigkeiten sind signifikant begrenzt. Zum Beispiel neigen LLMs zu Halluzinationen, wenn sie zu viel Benutzereingaben erhalten. Ein wesentlicher Grund liegt im Trainingsmechanismus. Wenn Sie GPT beispielsweise wiederholt sagen, dass 1+1=3, besteht die Wahrscheinlichkeit, dass es bei der Frage nach 1+1+1=? mit 4 antwortet.
Dies liegt daran, dass das Feedback von GPT vollständig aus Benutzereingaben abgeleitet wird. Wenn das Modell nicht mit dem Internet verbunden ist, ist es möglich, dass seine Funktionsweise durch Ihre Eingaben geändert wird, was zu einem Modell führt, das nur 1+1=3 "kennt". Wenn das Modell jedoch eine Verbindung zum Internet herstellen kann, wird sein Rückkopplungsmechanismus vielfältiger, da die überwiegende Mehrheit der Online-Daten bestätigen würde, dass 1+1=2 ist.
Was ist, wenn wir LLMs lokal verwenden müssen und solche Probleme vermeiden möchten?
Eine einfache Lösung besteht darin, zwei LLMs gleichzeitig zu verwenden, die sich gegenseitig validieren müssen, um die Wahrscheinlichkeit von Fehlern zu reduzieren. Wenn das nicht ausreicht, könnte ein anderer Ansatz darin bestehen, dass zwei Benutzer einen einzigen Prozess bearbeiten - einer stellt die Fragen und der andere verfeinert sie -, um die Sprache präziser und logischer zu machen.
Natürlich löst die Verbindung zum Internet nicht vollständig alle Probleme. Wenn das LLM beispielsweise Antworten aus unzuverlässigen Quellen abruft, könnte sich die Situation verschlechtern. Die Vermeidung solcher Daten reduziert jedoch die verfügbaren Informationen. Um dies zu beheben, können vorhandene Daten aufgeteilt, neu kombiniert oder sogar verwendet werden, um neue Daten basierend auf älteren Datensätzen zu generieren, um die Zuverlässigkeit der Antworten zu erhöhen. Dieser Ansatz entspricht im Wesentlichen dem Konzept von RAG (Retrieval-Augmented Generation) in der natürlichen Sprachverarbeitung.
Menschen und Maschinen müssen sich verstehen. Wenn mehrere LLMs zusammenarbeiten und interagieren, nutzen wir im Wesentlichen das Betriebsmodell von KI-Agenten. Diese dienen als menschliche Stellvertreter, die auf andere Ressourcen zugreifen, einschließlich großer Modelle und anderer Agenten.
Dies führt uns zur Verbindung zwischen LLMs und KI-Agenten:
LLMs sind Wissensaggregationen, mit denen Menschen über Chat-Schnittstellen interagieren. In der Praxis können jedoch bestimmte Workflows in kleinere Programme, Bots oder Anweisungssätze komprimiert werden. Diese werden als Agenten definiert.
AI-Agenten bleiben eine Untermenge von LLMs, sollten aber nicht mit ihnen gleichgesetzt werden. Das charakteristische Merkmal von AI-Agenten liegt in ihrer Betonung der Zusammenarbeit mit externen Programmen, LLMs und anderen Agenten. Deshalb fassen Menschen AI-Agenten oft als LLM + API zusammen.
Um dies im LLM-Workflow zu veranschaulichen, nehmen wir das Beispiel eines API-Aufrufs durch einen KI-Agenten:
Erinnern Sie sich noch an die Entwicklung der Mensch-Computer-Interaktion? Browser, APIs und andere Elemente aus dem Web 1.0 und Web 2.0 existieren weiterhin, aber die Benutzer müssen nicht mehr direkt mit ihnen interagieren. Stattdessen können sie einfach mit KI-Agenten in Kontakt treten. API-Aufrufe und damit verbundene Prozesse können alle dialogorientiert durchgeführt werden. Diese API-Dienste können jede Art von Daten umfassen, ob lokal, online oder von externen Apps, solange die Schnittstellen offen sind und die Benutzer über die erforderlichen Berechtigungen verfügen, um darauf zuzugreifen.
Ein vollständiger AI-Agenten-Workflow, wie oben gezeigt, behandelt LLM entweder als separaten Bestandteil des AI-Agenten oder als zwei Unterprozesse innerhalb eines Workflows. Unabhängig davon, wie sie aufgeteilt sind, ist das Ziel immer, den Bedürfnissen des Benutzers zu dienen. Aus der Perspektive der Mensch-Computer-Interaktion kann es sich sogar so anfühlen, als ob Benutzer mit sich selbst sprechen. Sie müssen nur Ihre Gedanken vollständig ausdrücken, und der AI/LLM/AI-Agent wird Ihre Bedürfnisse wiederholt erraten. Durch die Integration von Feedback-Mechanismen und die Gewährleistung, dass das LLM den aktuellen Kontext speichert, vermeidet der AI-Agent, seine Aufgaben aus den Augen zu verlieren.
Zusammenfassend sind KI-Agenten personalisiertere und humanisiertere Kreationen, die sie von traditionellen Skripten und Automatisierungswerkzeugen unterscheiden. Sie wirken wie persönliche Assistenten und berücksichtigen die tatsächlichen Bedürfnisse des Benutzers. Es ist jedoch wichtig anzumerken, dass diese Personalisierung immer noch auf probabilistischer Inferenz basiert. Ein KI-Agent der Stufe L3 besitzt keine menschenähnlichen Verständnis- und Ausdrucksfähigkeiten, was seine Integration mit externen APIs von Natur aus riskant macht.
Die Fähigkeit, KI-Frameworks zu monetarisieren, ist einer der Hauptgründe, warum ich mich für Krypto interessiere. In traditionellen KI-Technologie-Stacks sind Frameworks nicht besonders wichtig, zumindest nicht im Vergleich zu Daten und Rechenleistung. Die Monetarisierung von KI-Produkten beginnt selten mit dem Framework, da die meisten KI-Algorithmen und Modell-Frameworks Open Source sind. Was proprietär bleibt, sind sensible Elemente wie Daten.
Im Wesentlichen sind KI-Frameworks oder -Modelle Container und Kombinationen von Algorithmen, ähnlich einem Topf zum Garen von Gans. Die Qualität der Gans und die Beherrschung des Kochprozesses sind jedoch das, was den Geschmack wirklich definiert. In der Theorie sollte das zum Verkauf stehende Produkt die Gans sein, aber Web3-Kunden scheinen den Topf zu kaufen und die Gans wegzuwerfen.
Der Grund dafür ist nicht kompliziert. Die meisten Web3 Krypto-KI-Produkte bauen auf bestehenden KI-Frameworks, Algorithmen und Produkten auf, indem sie diese für ihre Zwecke anpassen. Tatsächlich unterscheiden sich die technischen Prinzipien hinter verschiedenen Krypto-KI-Frameworks nicht stark voneinander. Da die Technologie selbst keine Unterscheidung aufweist, richtet sich die Aufmerksamkeit auf Branding, Anwendungsszenarien und andere oberflächliche Unterscheidungen. Selbst geringfügige Anpassungen des KI-Frameworks bilden somit die Grundlage für die Unterstützung verschiedener Tokens, was zu einer Framework-Blase innerhalb von Krypto-KI-Agenten-Ökosystemen führt.
Da keine umfangreiche Investition in Schulungsdaten oder Algorithmen erforderlich ist, wird die Unterscheidung von Frameworks anhand des Namens besonders wichtig. Selbst ein erschwingliches Framework wie DeepSeek V3 erfordert immer noch erhebliche Kosten in Bezug auf GPU-Leistung, Strom und Aufwand.
In gewisser Weise passt dies zu einem aktuellen Trend von Web3: Plattformen, die Tokens ausgeben, sind oft wertvoller als die Tokens selbst. Projekte wie Pump.Fun und Hyperliquid sind hierfür Beispiele. Ursprünglich sollten Agents Anwendungen und Vermögenswerte repräsentieren, aber die Frameworks, die Agents ausgeben, sind mittlerweile die begehrtesten Waren geworden.
Dies spiegelt eine Form der Wertverankerung wider. Da Agenten keine Unterscheidung aufweisen, werden Rahmenbedingungen für die Ausgabe von Agenten stabiler und erzeugen einen Wertabsaugungseffekt für die Vermögensausgabe. Dies markiert die Version 1.0 der Integration von Krypto und KI-Agenten.
Die Version 2.0 taucht jetzt auf, exemplarisch durch die Konvergenz von Krypto-Finanzwesen und KI-Agenten. Während das Konzept von Krypto-Finanzwesen und KI möglicherweise durch Markthype ausgelöst wurde, legt ein genauerer Blick auf die folgenden Trends das Gegenteil nahe:
Im Hintergrund dieser DeFi-Transformation gestaltet KI die grundlegende Logik von DeFi neu. Zuvor bestand die Kernlogik von DeFi darin, die Machbarkeit von Smart Contracts zu überprüfen. Jetzt verändern KI-Agenten die Herstellungslogik von DeFi. Sie müssen DeFi nicht mehr verstehen, um DeFi-Produkte zu erstellen. Dies stellt einen Schritt über die Kettenabstraktion hinaus dar und bietet eine tiefere grundlegende Befähigung.
Das Zeitalter, in dem jeder Programmierer sein kann, steht kurz bevor. Komplexe Berechnungen können an die LLM und APIs hinter KI-Agenten ausgelagert werden, sodass Einzelpersonen sich ausschließlich auf ihre Ideen konzentrieren können. Natürliche Sprache kann effizient in Programmlogik umgewandelt werden.
Dieser Artikel erwähnt keine Krypto-KI-Agenten-Token oder -Frameworks, da Cookie.Fun bereits einen ausgezeichneten Job gemacht hat - eine Plattform für die Aggregation von KI-Agenteninformationen und die Entdeckung von Tokens, gefolgt von KI-Agenten-Frameworks und schließlich dem flüchtigen Aufkommen und Verschwinden von Agenten-Token. Eine weitere Auflistung solcher Informationen hier hätte nur wenig Wert.
Allerdings mangelt es dem Markt während dieses Zeitraums laut Beobachtungen noch immer an einer sinnvollen Diskussion darüber, worauf Krypto-KI-Agenten letztendlich abzielen. Wir können uns nicht immer auf die Zeiger konzentrieren; die Essenz liegt in den Veränderungen auf der Speicherebene.
Gerade die sich ständig weiterentwickelnde Fähigkeit, verschiedene Vermögenswerte in tokenisierte Formen umzuwandeln, macht Krypto so faszinierend.