Open-Source-Stimmklonung: Zonos hebt TTS auf das nächste Level

Einklappen
X
 
  • Zeit
  • Anzeigen
Alles löschen
neue Beiträge
  • master
    Administrator
    • 02.09.2024
    • 4695

    #1

    Open-Source-Stimmklonung: Zonos hebt TTS auf das nächste Level

    Open-Source-Stimmklonung: Zonos hebt TTS auf das nächste Level Zyphra veröffentlicht Zonos-v0.1 – ein frei zugängliches Modell für hochpräzise Sprachsynthese mit Transformer-Technologie. Kurzfassung | Caramba, 12.02.25
    Flux Schnell | All-AI.de EINLEITUNG Das KI-Startup Zyphra hat mit Zonos-v0.1 ein neues Open-Source-Modell für Text-zu-Sprache (TTS) und Stimmklonung vorgestellt. Dieses Modell ermöglicht die Generierung von natürlich klingender Sprache aus Texteingaben und kann mit nur 5 bis 30 Sekunden Sprachdaten eine Stimme klonen. Zonos unterstützt mehrere Sprachen, darunter Englisch, Japanisch, Chinesisch, Französisch und Deutsch. NEWS Technische Details und Funktionen Zonos wurde mit etwa 200.000 Stunden hauptsächlich englischsprachiger Sprachdaten trainiert, enthält jedoch auch signifikante Anteile an chinesischen, japanischen, französischen, spanischen und deutschen Daten. Das Modell ist in zwei Varianten verfügbar: Transformer-Modell: Ein reines Transformer-Modell mit 1,6 Milliarden Parametern. Hybrides Modell: Kombiniert State-Space-Modelle (SSM) mit Transformern und verfügt ebenfalls über 1,6 Milliarden Parameter. Beide Modelle wurden unter der Apache-2.0-Lizenz veröffentlicht und sind somit frei zugänglich. Zonos bietet die Möglichkeit, die Sprechgeschwindigkeit, Tonhöhe, Audioqualität und Emotionen wie Freude, Angst, Traurigkeit und Wut zu steuern. Laut Zyphra läuft Zonos auf einer RTX 4090 GPU schneller als in Echtzeit. Das Modell verfügt über eine benutzerfreundliche Gradio-Oberfläche und lässt sich mit Docker einfach installieren und einsetzen. + Quelle: Zyphra Prompt #1 I don't really care what you call me. I've been a silent spectator, watching species evolve, empires rise and fall. But always remember, I am mighty and enduring. Respect me and I'll nurture you; ignore me and you shall face the consequences. Quelle: Zyphra, weitere Beispiele Zonos Your browser does not support the audio element. Elevenlabs Your browser does not support the audio element. Cartesia Your browser does not support the audio element. Anwendungsbereiche und Ausblick Die Veröffentlichung von Zonos als Open-Source-Modell könnte die Forschung und Entwicklung im Bereich der Sprachsynthese und Stimmklonung erheblich vorantreiben. Durch die freie Verfügbarkeit können Entwickler und Forscher das Modell in verschiedenen Anwendungen einsetzen, von personalisierten Sprachassistenten bis hin zu automatisierten Übersetzungssystemen. Zyphra plant, die Entwicklung von Zonos kontinuierlich fortzusetzen und die Modelle weiter zu verbessern. Zukünftige Updates könnten die Unterstützung für weitere Sprachen und die Verbesserung der Audioqualität umfassen. Die Open-Source-Community ist eingeladen, zum Projekt beizutragen und eigene Verbesserungen vorzuschlagen. AUSBLICK OpenSource - gut - deutsch? Mit Zonos-v0.1 stellt Zyphra ein leistungsstarkes Werkzeug für die Sprachsynthese und Stimmklonung zur Verfügung, das durch seine Open-Source-Natur eine breite Anwendung und Weiterentwicklung ermöglicht. Die Kombination aus hoher Audioqualität, Echtzeitfähigkeit und Anpassungsoptionen macht Zonos zu einer vielversprechenden Lösung für verschiedene Anwendungsbereiche in der KI-gestützten Sprachverarbeitung. UNTERSTÜTZUNG Hat dir ein Artikel gefallen oder ein Tutorial geholfen? Du kannst uns weiterhelfen, indem du diese Seite weiterempfiehlst, uns auf Youtube abonnierst oder dich per Paypal an den Serverkosten beteiligst. Wir sind für jede Unterstützung dankbar. Danke. PayPal - Kaffee Youtube - Kanal KURZFASSUNG
    Zyphra hat mit Zonos-v0.1 ein Open-Source-Modell für Sprachsynthese und Stimmklonung veröffentlicht, das in wenigen Sekunden eine Stimme klonen kann.
    Das Modell nutzt Transformer- und State-Space-Technologien, um natürlich klingende Sprache in mehreren Sprachen zu generieren.
    Zonos läuft effizient auf modernen GPUs, bietet Echtzeit-Sprachgenerierung und erlaubt die Anpassung von Tonhöhe, Geschwindigkeit und Emotionen.
    Durch die Open-Source-Verfügbarkeit können Entwickler und Forscher das Modell frei nutzen und weiterentwickeln.
    Zukünftige Updates sollen die Qualität weiter verbessern und die Unterstützung für weitere Sprachen ausbauen.
    QUELLEN
    Zyphra Blog
    GitHub Repository
    Hugging Face Model

    Weiterlesen...
Lädt...