AITranslations

Traduction en direct par IA pour une écoute multilingue.

AITranslations est un projet privé de traduction quasi en temps réel, basée sur l’IA. Ce n’est pas une offre commerciale. L’objectif est de permettre de suivre le même événement dans différentes langues, avec une haute qualité, des choix de confidentialité optionnels et des coûts récurrents maîtrisables.

Accès et salles

Tout se passe dans une « salle ». Une salle est le contexte partagé d’un événement : l’audio est envoyé dans la salle et les auditeurs reçoivent la traduction dans leur langue.

Les salles peuvent être publiques ou protégées par mot de passe. L’accès émetteur (diffusion audio/vidéo et gestion des paramètres) est limité aux utilisateurs autorisés. L’usage se fait uniquement sur invitation ou sur demande.

Transparence des coûts (Apportez votre propre clé API)

AITranslations suit une approche « Apportez votre propre clé API » : la plateforme se connecte à vos propres comptes chez des fournisseurs d’IA. Cela vous laisse le choix du fournisseur et la facturation sous votre contrôle.

Les coûts récurrents dépendent principalement du mode choisi, du modèle et du nombre de langues cibles — et peuvent être gérés volontairement.

Modularité et confidentialité

La plateforme est modulaire. Selon vos besoins, vous pouvez utiliser des modèles haut de gamme pour une clarté maximale, ou choisir des configurations visant une meilleure confidentialité (par exemple des fournisseurs alternatifs ou des modèles auto-hébergeables).

Selon la configuration, l’audio et/ou le texte est transmis à des fournisseurs d’IA externes pour traitement. Il n’y a pas de suivi publicitaire ; des mesures opérationnelles peuvent être utilisées pour maintenir la fiabilité du service.

Trois voies pour la traduction en direct

AITranslations peut traiter la parole de trois manières. Ces voies diffèrent selon que l’audio traduit est produit directement ou qu’un texte est d’abord créé.

1) Traduction directe parole-vers-parole (Speech-to-Speech, S2S)

Un modèle temps réel transforme directement la parole en parole traduite. Cette approche vise une restitution naturelle avec peu de délai.

2) Traduction de la parole suivie d’une sortie vocale (AST→TTS)

La parole est d’abord convertie en texte traduit dans la langue cible. Un modèle text-to-speech (TTS) produit ensuite la sortie vocale.

3) Traitement fondé sur une transcription (STT/ASR → traduction → TTS)

La parole est d’abord transcrite. La transcription est ensuite traduite et restituée en audio par un modèle text-to-speech (TTS).

Qualité en usage réel

AITranslations fonctionne mieux lorsque le signal d’entrée est clair : un bon micro, une proximité suffisante avec l’orateur et un environnement calme améliorent nettement la clarté et la qualité de la traduction.

Rôles : auditeurs et émetteur

Les auditeurs peuvent rejoindre une salle via un lien ou un QR code (et saisir un mot de passe si nécessaire). Le rôle d’émetteur nécessite une autorisation pour diffuser l’audio et gérer les paramètres de la salle.

Travail en cours

AITranslations est encore en développement actif. Certaines fonctionnalités peuvent être incomplètes, évoluer sans préavis ou ne pas fonctionner dans toutes les configurations pour le moment.