
Nano Banana
Kurzfassung
▾
Quellen
▾
Apple-Forscher präsentierten auf der NeurIPS 2025 eine Methode, bei der Sprachmodelle (LLMs) Aktivitäten wie Kochen oder Sport erkennen. Das System nutzt keine Rohdaten, sondern analysiert Textbeschreibungen von Audio- und Bewegungssignalen, was den Datenschutz verbessert. Dank Zero-Shot-Learning identifiziert die KI zwölf verschiedene Tätigkeiten präzise, ohne vorheriges Training für diese spezifischen Aufgaben.
Apple Machine Learning Research - Using LLMs for Late Multimodal Sensor Fusion
9to5Mac - New Apple study shows LLMs can tell what you're doing
WebProNews - Apple's LLMs Unlock On-Device Audio and Motion
Beyond Fine-Tuning: What Apple's Multimodal Sensor Fusion Research Means
Sina Finance - AI Activity Recognition Coverage
Apple forscht intensiv an neuen Einsatzgebieten für Künstliche Intelligenz. Eine aktuelle Studie zeigt nun erstaunliche Fähigkeiten großer Sprachmodelle. Diese interpretieren Audio- und Bewegungsdaten präzise, um menschliche Aktivitäten zu erkennen. Das gelingt ihnen sogar ohne spezielles Training vorab. Datenanalyse über Textbeschreibungen Apple-Forscher stellten ihre Ergebnisse auf der NeurIPS-Konferenz 2025 vor. Der Ansatz unter*******t sich fundamental von herkömmlichen Methoden. Die KI wertet dabei keine rohen Sensordaten direkt aus. Stattdessen wandeln spezialisierte Algorithmen die Signale von Mikrofonen und Bewegungssensoren zunächst in präzise textbasierte Zusammenfassungen um. Dieser Zwischenschritt reduziert die Datenmenge erheblich und abstrahiert die technischen Signale in eine für Sprachmodelle verständliche Form. Das eigentliche Sprachmodell (LLM) erhält anschließend diese Texte als Input. Es kombiniert die Informationen logisch und nutzt sein Sprachverständnis zur Analyse. Aus der Beschreibung eines regelmäßigen Scheuergeräuschs und einer passenden Armbewegung schließt das System beispielsweise korrekt auf den Abwasch. Diese Methode nennt sich "Late Multimodal Sensor Fusion". Das Modell fungiert hierbei als logische Instanz, die disparate Informationen zu einem schlüssigen Gesamtbild zusammensetzt, statt nur Muster in Zahlenreihen zu suchen. Hohe Trefferquote ohne Training Die Wissenschaftler testeten das Verfahren erfolgreich an zwölf verschiedenen Alltagsaktivitäten. Dazu gehörten komplexe Handlungen wie Kochen, Putzen oder Sport treiben. Die Modelle identifizierten die Tätigkeiten mit hoher Genauigkeit allein anhand der Beschreibungen. Besonders beeindruckt dabei die Fähigkeit zum sogenannten Zero-Shot-Learning. Das System muss die spezifischen Aktivitäten vorher nicht "gesehen" oder trainiert haben. Es leitet die richtige Antwort aus dem Kontext und den Beschreibungen ab. Dieser Ansatz bietet enorme Vorteile für den Datenschutz und die Effizienz auf Endgeräten. Da keine rohen Audioaufnahmen das Gerät oder den sicheren Speicherbereich verlassen müssen, bleibt die Privatsphäre der Nutzer besser geschützt. Textdaten verbrauchen zudem nur einen Bruchteil des Speicherplatzes und der Rechenleistung im Vergleich zu Audio- oder Videodaten. Apple integriert solche Funktionen womöglich bald tiefer in iOS, damit der persönliche Assistent den Kontext des Nutzers besser versteht als je zuvor.
Weiterlesen...