Android

KI-Geräte sind tot | Digital Trends

Gemini, ChatGPT, Humane Pin und Rabbit R1.Digitale Trends

Im Vorfeld der Google I/O 2024 gab es kaum Zweifel daran, dass Google über KI sprechen würde. Die Veranstaltung begann mit einer entsprechend lauten Note. YouTube-Sensation Marc Rebillet eröffnete die Show im Bademantel, nachdem er aus einer riesigen Tasse aufgetaucht war.

Der Social-Media-Star gab den Ton für den Rest der Veranstaltung an, indem er die Zuschauer nach wilden musikalischen Ideen fragte, die mithilfe der KI-DJ-Software von Google zum Leben erweckt wurden. Der Gastgeber hätte sich keinen besseren Start wünschen können. In den Worten von CEO Sundar Pichai sprachen die Google-Führungskräfte das Wort „KI“ 121 Mal aus.

Als die Veranstaltung zu Ende war, blieben mir zwei Fragen im Kopf. Erstens: Versucht Google, Probleme zu lösen, die im Leben eines Durchschnittsmenschen gar nicht existieren, indem es ihm das Gemini-Gelato aufdrängt? Zweitens: Gibt es einen Markt für spezialisierte KI-Hardware im Wert von ein paar Hundert Dollar, wenn die KI auf Handys eine Reihe von unfassbaren Superkräften erhält?

Der Status von KI-Schmuckstücken

Der Rabbit R1 ruht auf einer Bank.Joe Maring / Digital Trends

KI-Geräte sind tot | Digital Trends

Bisher haben wir niedliche orangefarbene KI-Geräte wie den Rabbit R1 und auch etwas so Feines wie den Humane AI Pin. Eine Marke stellt sogar einen KI-Anhänger her. Einige von ihnen hören nur zu. Andere reden, nehmen Videos auf, tätigen Anrufe, greifen auf gesprächige KI-Bots zu und versuchen sogar, die Welt um Sie herum zu verstehen.

Ich werde jetzt nicht darüber diskutieren, wie schlecht diese Geräte bisher abgeschnitten haben. Aber Joe Maring, Redakteur für die Mobile-Rubrik von Digital Trends, sagt, dass der Rabbit R1 eines der schlechtesten Geräte ist, die er je benutzt hat. Und auch die Geschichte von Humane AI Pin ist nicht viel anders. Autsch! Okay, das sind alles Geräte der ersten Generation ihrer Art, also lassen wir sie etwas lockerer.

LESEN  Android 15 bietet eine wichtige neue Sicherheitsfunktion

Aber die Realität sieht so aus: Ihre Zukunft sieht weder rosig noch erschwinglich oder gar praktisch aus. Innerhalb von zwei Tagen haben zwei KI-Schwergewichte – OpenAI und Google – dies fast eindeutig klargestellt.

KI ist sich jetzt der Welt bewusst

Verwenden der Sehfähigkeiten einer KI in der ChatGPT-App.OpenAI

Beginnen wir mit dem Sehen, einer Fähigkeit, die es einer KI ermöglicht, die Welt durch ein Kameraobjektiv zu sehen und über das Gesehene zu sprechen. Google präsentierte auf der I/O 2024 etwas namens Gemini Live. Einen Tag zuvor enthüllte OpenAI GPT-4o, wobei „o“ für omnimodal steht. Das ist nur eine schicke Art, multimodal zu sagen, was bedeutet, dass Ihr KI-Kumpel Text, Audio und visuelle Elemente für die Eingabe und Ausgabe verarbeiten kann. Aber das letztendliche Ziel ist bei beiden Produkten identisch.

Sie starten die KI Ihrer Wahl, richten die Kamera auf praktisch alles und die KI wird Ihre kontextbezogenen Fragen beantworten. Sie können die Frontkamera einschalten und die KI bitten, Kommentare abzugeben, während sie Ihnen beim Schere-Stein-Papier-Spielen mit einem Freund zusieht. Sie kann Ihnen sagen, ob Ihr rosa Hemd nicht die beste Kleidung für ein Vorstellungsgespräch ist.

Bei Bedarf kann sie sich Objekte ansehen und sie auf Portugiesisch erklären, Gebäude wie ein zuverlässiger Reiseführer identifizieren und einen besonderen Anlass anhand des auf einem Tisch ausgebreiteten Konfettis spüren. Richten Sie sie auf einen Code, und die KI erklärt Ihnen den Zweck des Codes. Und wenn die KI irgendwann einmal Ihre Autoschlüssel gesehen hat, sagt sie Ihnen, wo genau Sie sie liegen gelassen haben.

Live-Demo der Bildverarbeitungsfunktionen von GPT-4o

Nun sind die oben genannten Funktionen bei ChatGPT (mit viel GPT-4o-Saft) und Gemini Live (mit der Google Astra-Technologie dahinter) nicht einheitlich. Aber die Grundlagen sind gleich. Dies ist auch ein entscheidender Punkt, an dem sich die Kluft zwischen der KI-Erfahrung auf Telefonen und auf dedizierter Hardware vergrößert.

LESEN  Android 15 verfügt über eine clevere Möglichkeit, Benachrichtigungen weniger störend zu machen

Das Hardware-Rätsel

ChatGPT-Vision-Funktion in Aktion.OpenAI

Rabbit R1 und Humane AI Pin haben 8-Megapixel- bzw. 12-Megapixel-Kameras. Ja, sie können die Welt sehen und verstehen, aber sie können nicht mit der visuellen Leistung der optisch stabilisierten hochauflösenden Kameras eines halbwegs anständigen Smartphones der aktuellen Generation mithalten.

Kurz gesagt: Ein durchschnittliches Smartphone liefert mehr gesunde visuelle Datenpunkte an eine KI-Engine, ob lokal oder cloudbasiert, was direkt zu einem besseren Verständnis führt. Stellen Sie es sich so vor, als würden Sie einen Vlog vergleichen, der bei schwierigen Lichtverhältnissen mit einem Billig- und einem Flaggschiff-Telefon aufgenommen wurde, und Ihre Freunde bitten, alles zu beschreiben, was sie sehen. Natürlich wird ein verschwommener oder überbelichteter Clip hier nicht viel helfen.

Dann ist da noch der Computerteil. Die angesagtesten KI-Geräte des Jahres 2024 laufen auf MediaTek- und Qualcomm-Silizium der unteren bis mittleren Preisklasse. Diese Geräte sind nicht durch die Last eines ganzen Betriebssystems belastet, aber nach dem, was wir bisher gesehen haben, kann selbst ein halbwegs anständiges Smartphone KI-Aufgaben im Vergleich zum R1 oder Humanes Pin deutlich schneller ausführen.

KI-Übersetzung auf Android-Telefon.Google

Ich möchte nicht, dass mein KI-Gerät 15 Sekunden braucht, um eine Anfrage zu verarbeiten, wenn selbst die gute alte Siri das besser kann. Das ist ein schlechter Maßstab, aber da steht der R1. Da wir gerade über Silizium sprechen, wollen wir besprechen, wie die Verarbeitung hier eine Schlüsselrolle spielt. Generative KI-Tricks werden auf zwei Arten zum Leben erweckt. Die meisten Lösungen leiten die Anfragen an einen Cloud-Server weiter, was bedeutet, dass sie eine Internetverbindung benötigen.

Die zweite Möglichkeit ist die Offline-Verarbeitung, wie sie Googles Gemini Nano-Modell unter anderem auf der Pixel 8-Serie und Samsung-Telefonen verwendet. Der größte Vorteil ist, dass Sie in diesem Szenario keine Internetverbindung benötigen. Derzeit gibt es kein KI-Dingsbums, das ohne Internetverbindung funktionieren kann.

LESEN  Warum die neueste Funktion der Apple Watch zum Scheitern verurteilt ist

On-Device-KI ist ein echtes Juwel

Ein Foto von Sundar bei der Keynote der Google I/O 2024.Joe Maring / Digital Trends

Mit der Verarbeitung auf dem Gerät kann die Recorder-App auf Pixel-Telefonen Audioaufnahmen transkribieren und zusammenfassen. Magic Compose bringt Ihr Texting-Spiel auf ein neues Niveau, ohne dass Sie WLAN- oder Mobilfunkverbindungen benötigen. Dasselbe gilt für Übersetzungen und Transkriptionen. Tatsächlich hat Google bereits 2018 mit seiner Technologie für neuronale maschinelle Übersetzung den Grundstein für zuverlässige Offline-Übersetzungen gelegt.

Aber das ist nur die Spitze des Eisbergs. Später in diesem Jahr wird Google Gemini Nano mit Multimodalität herausbringen. Das bedeutet, dass Sie keine Internetverbindung benötigen, damit Gemini Live sehen, verstehen und kontextbezogene Antworten auf das geben kann, was es über die Kamera, den Bildschirm und das Mikrofon Ihres Telefons sieht und hört.

Google erweitert die TalkBack-Zugänglichkeitsfunktion mit Gemini sogar noch weiter. Das ist ein großer Gewinn für Menschen mit Sprach- und Sehproblemen, die einen zuverlässigen TalkBack-Begleiter mit multimodalen Funktionen benötigen, aber keinen Zugang zu einer Internetverbindung haben.

TalkBack-Funktion mit Gemini-Technologie auf Android.Google

Habe ich Ihnen außerdem gesagt, dass die KI-Verarbeitung auf dem Gerät schneller ist und wesentlich sicherer, da keine Daten Ihr Telefon verlassen? Und was noch wichtiger ist: Es senkt letztlich die Kosten für die Bereitstellung generativer KI-Funktionen.

Die Kosten für die Verbraucher sind derzeit eine der größten Unsicherheiten, wenn es um die gesamte Marketingoffensive für KI-Telefone geht. In diesem Chaos ist KI auf dem Gerät eine große Erleichterung, da Sie zumindest eine Vorstellung davon haben, was Ihr Telefon mindestens leisten kann, ohne sich in den kommenden Jahren allzu viele Gedanken über die Funktionskompatibilität machen zu müssen.

Gemini macht es richtig

Gemini Advanced verarbeitet Dokumente.Google

LESEN  Die besten Mint-Alternativen: 10 tolle Budgetierungs-Apps für 2024

Schließlich haben wir die allzu entscheidende Frage des Zusammenspiels. Mein Leben dreht sich unter anderem um Gmail, Docs, Drive, Maps, Fotos und die Suche. Google hat Gems entwickelt, also benutzerdefinierte, auf Gemini basierende Assistenten für die Erledigung bestimmter Aufgaben, die eng mit anderen Produkten des Ökosystems verknüpft sind.

Wenn Sie Gemini beispielsweise bitten, eine Reise für Sie zu planen, wirft es einen Blick in Ihren Gmail-Posteingang, um Tickets zu planen, und kombiniert dann die Daten in Ihrer Sprach-/Textaufforderung mit relevanten Google-Suchinformationen, um einen vollständig ausgearbeiteten Reiseplan zu erstellen.

Wer bereit ist, für Gemini aAdvanced zu zahlen, erhält noch mehr Produktivitäts-Superkräfte. Es kann PDFs mit bis zu 1.500 Seiten, 30.000 Zeilen Code, ein einstündiges Video oder eine Mischung verschiedener Dateiformate verarbeiten.

Gemini verarbeitet alle diese Eingaben und stellt Ihnen dann zusammengefasste Versionen zur Verfügung, identifiziert wichtige Aspekte und fungiert nach der Aufnahme des gesamten Materials sogar als Lehrer. Es kann sogar aus alltäglichen Tabellenkalkulationen einen detaillierten Finanzbericht mit einem klaren Überblick über Gewinne und damit verbundene Erkenntnisse erstellen.

Die KI hört sogar Anrufe und warnt Benutzer, wenn es sich bei dem Anrufer um einen Betrüger handelt. Tatsächlich führt Sie Gemini nicht einmal zu einer anderen App. Wenn Sie sie brauchen, schwebt die Gemini-Oberfläche einfach über der App, die Sie gerade verwenden, erledigt ihre Aufgabe und verschwindet.

Es ist schwer, ein Smartphone zu schlagen

Zwillingserlebnisse am Telefon.Google

Was ich hier sagen möchte, ist, dass eine KI als Assistent dienen sollte, aber sie muss die richtige Balance zwischen funktionaler Vielseitigkeit und praktischem Nutzen finden. Das kann sie nur, wenn sie Zugang zu Daten hat, die mir persönlich und beruflich wichtig sind. Und ich möchte, dass all diese Intelligenz bestmöglich genutzt wird, ohne dass zusätzlicher finanzieller Aufwand entsteht.

LESEN  Die 10 wichtigsten Dinge, die Sie über das Google Pixel 8a wissen sollten

Derzeit können Produkte wie Rabbit R1 oder Humane AI Pin kaum an der Oberfläche einer derart tiefgreifenden Produktvernetzung kratzen. Außerdem hält die Hardware selbst die KI davon ab, ihr volles Potenzial auszuschöpfen. Ich kann mir nicht vorstellen, dass Google Gemini Nano für etwas wie den Rabbit R1 lizenziert, und selbst wenn es passiert, wird das Erlebnis durch die Hardware beeinträchtigt.

Warum also extra bezahlen und sich mit einer unterdurchschnittlichen Leistung zufrieden geben, wenn das Telefon in Ihrer Tasche einen tollen Job machen kann? Das KI-Telefon ist da. Und es wird bleiben. Orangefarbene und glänzende KI-Schnickschnacks hingegen sind so gut wie tot.

Ähnliche Artikel

Schaltfläche "Zurück zum Anfang"