Grundlegende Sprach-KI

Sprach-KI
Entwickelt für KI-Agenten

Wir entwickeln dateneffiziente Foundational Text-to-Speech (TTS) Modelle, die als Infrastruktur für Vertical Voice AI Agents dienen. Wo generische Modelle oft an komplexen Edge Cases, Dialekten oder Fachjargon scheitern, lernen unsere Modelle diese spezifischen Betonungsmuster mit sehr kleinen Datensätzen in extrem hoher Qualität. So liefern wir Vertical AI Startups ihren TTS-Layer mit unter 200ms Latenz, bei geringeren Kosten und deutlich natürlicherer Betonung als die Konkurrenz.

Demo ausprobieren Forschung

Tontaube V0 · Jetzt verfügbar

Hören Sie selbst

Testen Sie unser V0-Modell, das für geringe Latenz und Kosteneffizienz entwickelt wurde. Geben Sie Ihren Text unten ein, um eine Audio-Vorschau zu generieren.

Enter Text

Tontaube V0 ist ein grundlegendes Sprach-KI-Modell. Verbesserte Versionen für App und API folgen in Kürze.

Long-form narration samples

Experience extended passages in English and German from Tontaube, the world's most natural-sounding model for audiobooks.

English

Audiobook narration — English

0:00

Deutsch

Hörbuch-Erzählung — Deutsch

0:00

Mit Tontaube entwickeln

Eine schnelle, kostengünstige Sprachgenerierungs-API, die auf unserer Architektur basiert. Klonen Sie jede Stimme aus einer einzigen Audiodatei und generieren Sie Langform-Sprache mit 10-facher Echtzeitgeschwindigkeit.

200.000 kostenlose Zeichen bei Registrierung
5 $ pro Million Zeichen
Pay-as-you-go mit Enterprise-Tarifen
Benutzerdefinierte Stimmen (bald verfügbar)
~200ms Latenz für Unternehmenskunden

Auf die Warteliste setzen

Python

Available on PyPI

import tontaube

with tontaube.Client(api_key="ttb_live_...") as client:
    speakers = client.list_speakers()
    for speaker in speakers:
        print(f"{speaker.name} ({speaker.voice_style}), id: {speaker.id}")

    response = client.generate_speech(
        text="I am here to help you with your project. Tell me what we are building today, and I will get right to work.",
        speaker_id=speakers[0].id,
        temperature=0.8,
    )

with open("speech.opus.m4a", "wb") as f:
    f.write(response.content)

print(f"Duration: {response.audio_duration}s, Cost: ${response.cost_usd}")
print("Result saved to speech.opus.m4a")

2.33%

Seed-TTS WER

per row mean, clipped at 100%

94–97%

GMOS prosody wins

vs on-device tier (NeuTTS Air, Nano, Kani TTS 2)

150–200 ms

Server latency

time to first audio chunk on a single GPU

On-Device

Near real-time on Pixel 8

CPU inference — no GPU required

Tontaube V0 Model Card

Jetzt verfügbar

Tontaube für iOS & Android

Unsere Hörbuch- und Voice-Cloning-App — bereits in den Händen tausender Hörer. Konvertieren Sie jedes Dokument in Audio, klonen Sie Ihre Stimme und streamen Sie aus einer Public-Domain-Bibliothek.

PDF-, EPUB- & Dokumentenkonvertierung
Kostenloses Voice Cloning
Über 30.000 KI-Hörbücher

App Store Google Play Web-App

Vollständige Produktübersicht

Interesse an einer Investition?

Wir haben die Architektur im Prototypenstadium bewiesen und suchen Investitionen, um Rechenleistung, Daten und das Team zu skalieren.

Senden Sie uns eine E-Mail Termin vereinbaren

Sprach-KI Entwickelt für KI-Agenten