Was ist ein KI-Token?

Google

Google hat kürzlich angekündigt, dass das Kontextfenster von Gemini 1.5 Pro von 1 Million Token auf 2 Millionen erweitert wird. Das klingt beeindruckend, aber was in aller Welt ist ein Token überhaupt?

Im Grunde brauchen sogar Chatbots Hilfe bei der Verarbeitung der empfangenen Texte, damit sie Konzepte verstehen und auf menschliche Art mit Ihnen kommunizieren können. Dies wird mithilfe eines Token-Systems im Bereich der generativen KI erreicht, das Daten aufschlüsselt, damit sie für KI-Modelle leichter verdaulich sind.

Was ist ein KI-Token?

Google

Ein KI-Token ist die kleinste Einheit, in die ein Wort oder eine Phrase bei der Verarbeitung durch ein großes Sprachmodell (LLM) zerlegt werden kann. Token stehen für Wörter, Satzzeichen oder Teilwörter, die es Modellen ermöglichen, Text effizient zu analysieren und zu interpretieren und anschließend Inhalte auf ähnliche einheitenbasierte Weise zu generieren. Dies ist vergleichbar damit, wie ein Computer Daten zur einfacheren Verarbeitung in Unicode-Nullen und -Einsen umwandelt. Token ermöglichen es einem Modell, ein Muster oder eine Beziehung innerhalb von Wörtern und Phrasen zu bestimmen, sodass es zukünftige Begriffe vorhersagen und im Kontext Ihrer Eingabeaufforderung reagieren kann.

Wenn Sie eine Eingabeaufforderung eingeben, sind die Phrase und die Wörter zu lang, als dass ein Chatbot sie so interpretieren könnte – sie müssen in kleinere Teile zerlegt werden, bevor der LLM die Anfrage überhaupt verarbeiten kann. Sie werden in Tokens umgewandelt, dann wird die Anfrage übermittelt und analysiert und Sie erhalten eine Antwort.

Der Prozess der Umwandlung von Text in Token wird als Tokenisierung bezeichnet. Es gibt viele Tokenisierungsmethoden, die sich je nach Variante unterscheiden können, einschließlich Wörterbuchanweisungen, Wortkombinationen, Sprache usw. Die raumbasierte Tokenisierungsmethode beispielsweise teilt Wörter basierend auf den Leerzeichen zwischen ihnen auf. Der Satz „Es regnet draußen“ würde in die Token „Es regnet“, „draußen“ aufgeteilt.

LESEN So rufen Sie eine E-Mail in Outlook unter Windows und Mac ab

Wie funktionieren KI-Token?

Die allgemeine Aufschlüsselung der Token-Konvertierung im Bereich der generativen KI zeigt, dass ein Token ungefähr vier Zeichen in der englischen Sprache entspricht – oder 3/4 eines Wortes – und 100 Token entsprechen ungefähr 75 Wörtern. Andere Umrechnungen legen nahe, dass ein bis zwei Sätze ungefähr 30 Token entsprechen, ein Absatz ungefähr 100 Token und 1.500 Wörter ungefähr 2.048 Token.

Egal, ob Sie ein normaler Benutzer, ein Entwickler oder ein Unternehmen sind, das von Ihnen verwendete KI-Programm verwendet Token, um seine Aufgaben auszuführen. Sobald Sie anfangen, für generative KI-Dienste zu zahlen, zahlen Sie für Token, um den Dienst auf optimalem Niveau zu halten.

Die meisten Marken für generative KI haben auch Grundregeln für die Funktionsweise von Token in ihren KI-Modellen. Viele Unternehmen haben Token-Beschränkungen, die die Anzahl der Token, die in einem Durchgang verarbeitet werden können, begrenzen. Wenn die Anfrage größer ist als das Token-Limit eines LLM, kann das Tool eine Anfrage nicht in einem einzigen Durchgang abschließen. Wenn Sie beispielsweise einen 10.000 Wörter langen Artikel zur Übersetzung in ein GPT mit einem 4.096-Token-Limit eingeben, kann es ihn nicht vollständig verarbeiten, um eine detaillierte Antwort zu geben, da eine solche Anfrage mindestens 15.000 Token erfordern würde.

Unternehmen haben jedoch die Fähigkeiten ihrer LLMs schnell weiterentwickelt und die Token-Beschränkung mit neuen Versionen erweitert. Das forschungsbasierte BERT-Modell von Google hatte eine maximale Eingabelänge von 512 Token. OpenAIs GPT-3.5 LLM, auf dem die kostenlose Version von ChatGPT läuft, hat maximal 4.096 Eingabe-Token, während sein GPT-4 LLM, auf dem die kostenpflichtige Version von ChatGPT läuft, maximal 32.768 Eingabe-Token hat. Dies entspricht ungefähr 64.000 Wörtern oder 50 Seiten Text.

LESEN Was ist Nvidia DLAA? Eine Anti-Aliasing-Erklärung

Googles Gemini 1.5 Pro, das Audiofunktionen für das AI Studio der Marke bereitstellt, verfügt standardmäßig über ein Kontextfenster mit 128.000 Token. Das Claude 2.1 LLM hat ein Limit von bis zu 200.000 Kontexttoken. Dies entspricht ungefähr 150.000 Wörtern oder 500 Seiten Text.

Welche verschiedenen Arten von KI-Token gibt es?

Im Bereich der generativen KI werden verschiedene Tokentypen verwendet, mit denen LLMs die kleinsten verfügbaren Einheiten für die Analyse identifizieren können. Hier sind einige der wichtigsten Token, die für ein KI-Modell von Interesse sind.

Welche Vorteile bieten Token?

Token bieten im Bereich der generativen KI mehrere Vorteile. In erster Linie fungieren sie als Bindeglied zwischen menschlicher Sprache und Computersprache bei der Arbeit mit LLMs und anderen KI-Prozessen. Token helfen Modellen, große Datenmengen gleichzeitig zu verarbeiten, was insbesondere in Unternehmensbereichen, die LLMs verwenden, von Vorteil ist. Unternehmen können mit Token-Limits arbeiten, um die Leistung von KI-Modellen zu optimieren. Mit der Einführung zukünftiger LLM-Versionen ermöglichen Token Modellen durch höhere Limits oder Kontextfenster einen größeren Speicher.

Weitere Vorteile von Token liegen in den Trainingsaspekten von LLMs. Da es sich um kleine Einheiten handelt, können sie verwendet werden, um die Geschwindigkeit der Datenverarbeitung zu optimieren. Aufgrund der prädiktiven Natur von Tokens haben sie ein besseres Verständnis von Konzepten und verbessern Abläufe im Laufe der Zeit. Tokens helfen bei der Implementierung multimodaler Aspekte wie Bilder, Videos und Audio in LLMs neben Text-to-Speech-Chatbots.

Token bieten außerdem einige Vorteile hinsichtlich Datensicherheit und Kosteneffizienz, da ihr Unicode-Setup wichtige Daten schützt und längere Texte in eine vereinfachte Version kürzt.

Cookie	Dauer	Beschreibung
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Was ist ein KI-Token?

Wie funktionieren KI-Token?

Welche verschiedenen Arten von KI-Token gibt es?

Welche Vorteile bieten Token?

Ähnliche Artikel