


Chatterbox Turbo est un modèle de synthèse vocale (TTS) open-source de 350 millions de paramètres qui offre une synthèse vocale rapide et expressive avec des fonctions de sécurité intégrées. Il fonctionne jusqu'à 6 fois plus vite que le temps réel sur un seul GPU, avec une latence aussi faible que 75 ms — ce qui le rend adapté aux applications en temps réel. Le modèle est publié sous licence MIT et est le premier TTS open-source à inclure le marquage PerTh sur chaque sortie audio générée, garantissant la provenance et la responsabilité.
Chatterbox Turbo introduit des balises textuelles qui vous permettent de contrôler les réactions vocales naturelles — notamment [soupir], [halètement], [toux], [rire], [murmure] et [souffle]. Ces réactions sont exécutées dans la voix clonée avec le même ton émotionnel, sans nécessiter de post-traitement ni d'édition audio manuelle.
Clonez n'importe quelle voix à partir de seulement 5 secondes d'audio de référence — aucun entraînement ni réglage fin requis. Le modèle surpasse les modèles propriétaires à source fermée lors de tests comparatifs, avec un taux de victoire de 65,3 % contre ElevenLabs Turbo v2.5 et de 59,1 % contre VibeVoice 7B.
Chaque fichier audio généré par Chatterbox Turbo est authentifié par le PerTh Watermarker de Resemble AI. Cela garantit que vous pouvez toujours vérifier quand le contenu a été créé par le modèle, maintenant une haute qualité audio tout en assurant la responsabilité dans les déploiements en production.
Une fonctionnalité unique parmi les modèles TTS open-source : ajustez l'intensité émotionnelle d'un ton monotone à une expression dramatique avec un seul paramètre. Cela offre un contrôle précis sur la livraison sans nécessiter d'ingénierie d'invite complexe.
Le seul TTS open-source qui ne vous demande pas de choisir entre vitesse, expressivité et sécurité.
Chatterbox Turbo est le premier modèle TTS open-source à être livré avec un marquage PerTh intégré comme fonctionnalité par défaut — et non comme une réflexion après coup. Cela signifie que les développeurs peuvent déployer une IA vocale rapide et expressive en production tout en maintenant la provenance et la responsabilité. Combiné avec l'invite paralinguistique et le clonage zéro-shot à partir de seulement 5 secondes d'audio, il offre une combinaison rare de performance, de contrôle et de fiabilité dans un seul package sous licence MIT.
Vous avez besoin d'un modèle TTS open-source rapide qui fonctionne sur un seul GPU, prend en charge la synthèse vocale en temps réel et inclut des fonctions de sécurité intégrées. Il est particulièrement pertinent si vous construisez des assistants vocaux, des médias interactifs ou toute application où la parole générée par l'IA responsable est importante — et que vous souhaitez éviter le verrouillage propriétaire ou les pipelines de post-traitement complexes.
D'autres outils que vous pourriez envisager
Loading comments…
Créateur
async_apple
Visiter le site web
resemble.ai/chatterbox-turbo/
Infos du projet
Mots-clés du produit
Récompense