AITranslations

KI‑gestützte Live‑Übersetzung für mehrsprachigen Empfang und Live‑Video.

AITranslations ist ein privates Projekt für KI‑basierte Übersetzung in nahezu Echtzeit. Es ist kein kommerzielles Angebot. Ziel ist, dass Menschen derselben Veranstaltung in unterschiedlichen Sprachen folgen können — mit hoher Qualität, optionalen Privatsphäre‑Einstellungen und kontrollierbaren laufenden Kosten.

Zugang & Räume

Alles passiert in einem „Raum“. Ein Raum ist der gemeinsame Kontext für eine Veranstaltung: Audio/Video wird in den Raum gesendet, und Empfänger erhalten die Übersetzung in ihrer Sprache.

Räume können öffentlich oder passwortgeschützt sein. Sender-Zugang (Audio/Video streamen und Einstellungen verwalten) ist auf autorisierte Nutzer beschränkt. Die Nutzung erfolgt ausschließlich auf Einladung oder Anfrage.

Kostentransparenz (Bring Your Own API Key)

AITranslations folgt dem Prinzip „Bring Your Own API Key“: Die Plattform verbindet sich mit Ihren eigenen Konten bei KI-Anbietern. Dadurch bleiben Anbieterwahl und Abrechnung unter Ihrer Kontrolle.

Die laufenden Kosten hängen hauptsächlich vom gewählten Modus, dem Modell und der Anzahl der Zielsprachen ab — und lassen sich gezielt steuern.

Modularität & Privatsphäre

Die Plattform ist modular. Je nach Bedarf können Sie High‑End‑Modelle für maximale Verständlichkeit einsetzen oder Setups wählen, die auf stärkere Privatsphäre zielen (z. B. alternative Anbieter oder selbst hostbare Modelle).

Je nach Konfiguration werden Audio und/oder Text zur Verarbeitung an externe KI-Anbieter übertragen. Es gibt kein Werbe‑Tracking; betriebliche Messwerte können genutzt werden, um den Dienst zuverlässig zu betreiben.

Drei Wege der Live-Übersetzung

AITranslations kann gesprochene Sprache auf drei Arten verarbeiten. Die Wege unterscheiden sich darin, ob direkt Audio erzeugt wird oder ob zunächst Text entsteht.

1) Direkte Sprach-zu-Sprache-Übersetzung (Speech-to-Speech, S2S)

Ein Echtzeitmodell wandelt gesprochene Sprache direkt in übersetzte Sprache um. Dieser Ansatz ist auf natürliche Wiedergabe und geringe Verzögerung ausgelegt.

2) Sprachübersetzung mit anschließender Sprachausgabe (AST→TTS)

Die gesprochene Sprache wird zunächst in übersetzten Text der Zielsprache umgewandelt. Anschließend erzeugt ein Text-zu-Sprache-Modell (TTS) daraus die Sprachausgabe.

3) Transkriptbasierte Verarbeitung (STT/ASR → Übersetzung → TTS)

Die gesprochene Sprache wird zuerst transkribiert. Das Transkript wird anschließend übersetzt und von einem Text-zu-Sprache-Modell (TTS) als Audio ausgegeben.

Qualität im Live‑Einsatz

AITranslations funktioniert am besten, wenn das Eingangssignal klar ist: Ein gutes Mikrofon, ausreichende Nähe zum Sprecher und eine ruhige Umgebung verbessern Verständlichkeit und Übersetzungsqualität deutlich.

Rollen: Empfänger und Sender

Empfänger können einem Raum per Link oder QR‑Code beitreten (und bei Bedarf ein Passwort eingeben). Die Sender‑Rolle erfordert eine Autorisierung, um Audio/Video zu streamen und Raum‑Einstellungen zu verwalten.

In Entwicklung

AITranslations befindet sich noch in aktiver Entwicklung. Einige Funktionen können unvollständig sein, sich ohne Ankündigung ändern oder in manchen Setups noch nicht zuverlässig funktionieren.