ElevenLabs-Thumbnail-V3
Autor
Simon
Veröffentlicht
14 Jan 2024
Lesezeit
13 min

ElevenLabs (Tutorial): Alles was du darüber wissen musst

Tippe einen Text und lasse ihn zu einer authentischen Sprache in einem Audio umwandeln. Wie das mit ElevenLabs möglich ist, wie du sogar deine eigene Stimme dafür verwenden und auch noch bessere Übersetzungen Sprache zu Sprache erstellen kannst, erkläre ich dir ausführlich in diesem Tutorial.

Überblick & Preis

Mit ElevenLabs können wir Texte zu Audio umwandeln lassen, in über 29 Sprachen, mit vorgefertigten Stimmen oder mit selbst erstellten, wie unserer eigenen. Auch Sprache zu Sprache ist möglich, für noch bessere Ergebnisse, sowie automatische Audioübersetzungen von einer Sprache zur anderen. Das ganze funktioniert aktuell ausschließlich über die Webseite oder API und die Oberfläche ist aktuell nur auf Englisch verfügbar. Mit diesem Tutorial solltest du sie aber auch gut auf Deutsch verstehen können.

Doch wie sieht es preislich aus? Grundsätzlich können wir es kostenlos nutzen, womit wir 10.000 Zeichen pro Monat kostenlos zu Sprache umwandeln und bis zu 3 generierte eigene Stimmen erstellen können. 

Wenn du die synthetisierten Stimmen auch kommerziell nutzen möchtest, benötigst du aber ein kostenpflichtiges Abo, was mit 5 $ pro Monat im Starter-Abo beginnt. Hier erhalten wir auch 30.000 Zeichen pro Monat und können bis zu 10 eigene Stimmen erstellen. Dort erhalten wir auch Zugriff auf das Instant Voice Cloning, womit wir in wenigen Minuten und anhand von wenig Material, eine komplett eigene Stimme kopieren können. Mit dem Creator-Abo für 22 $ pro Monat, können wir auch auf das professionelle Voice Cloning zugreifen, wo wir unsere eigene Stimme mit viel Material trainieren und erstellen lassen können. Damit können wir auch bis zu 30 eigene Stimmen erstellen. Zudem erhalten wir hier 100.000 Zeichen pro Monat und können weitere Zeichen für 30 Cent pro 1.000 Zeichen nutzen. Hier erhalten wir auch Zugriff auf die Projektfunktion, sowie eine bessere Audioqualität über die API-Nutzung. Wenn du noch mehr Zeichen inklusive benötigst, also 500.000 und bis zu 160 eigene Stimmen, kannst du auch das Independent Publisher Abo für 99 $ pro Monat buchen. Hier erhalten wir auch ein Dashboard zur Analyse unseres Verbrauchs und können 1.000 weitere Zeichen jeweils für 24 Cent dazu buchen. Mit dem Growing Business Abo für 330 $ pro Monat, erhalten wir 2 Mio. Zeichen pro Monat, 660 eigene Stimmen und zahlen 18 Cent für jede weiteren 1.000 Zeichen. Wenn dir das nicht reicht oder du besondere Konditionen benötigst, kannst du auch ein individuelles Abo anfragen. Über diesen Link* kannst du dir auch alle Abos in Ruhe anschauen und auch selbst beispielhaft ausrechnen, wie viel Zeichen du ca. für deine Projekte benötigst. Die Abos werden über Stripe abgerechnet, wo du mit einer Kredit- oder Debitkarte bezahlen kannst, sowie mit Apple oder Google Pay.

Account erstellen

Wir können ElevenLabs direkt über diesen Link* kostenlos nutzen. Dafür erstellen wir am oberen rechten Rand einen kostenlosen Account. Das geht einfach mit einem Google Account oder klassisch mit E-Mail-Adresse und Passwort. Im nächsten Schritt müssen wir noch unsere E-Mail-Adresse bestätigen und dann ein paar Fragen beantworten, warum wir ElevenLabs nutzen. Das beeinflusst nicht unsere Funktionen, welche wir anschließend nutzen können. Schon ist der Account erstellt und wir können ElevenLabs einfach immer über die Webseite verwenden.

Text zu Sprache

Mit ElevenLabs können wir einfach Texte zu einer Audiodatei umwandeln, was im oberen Menü unter Speech Synthesis geht. Dort können wir neben Text zu Sprache auch Sprache zu Sprache erstellen. Wir wählen hier als erstes Text zu Sprache aus. Dann können wir in den Einstellungen eine Stimme auswählen, welche später unseren Text sprechen soll. Hier finden wir einige vorgefertigte Stimmen von ElevenLabs, wo wir aber auch über “Add Voice” eine neue Stimme hinzufügen können. Dafür wechseln wir in das VoiceLab, welches wir uns später noch im Detail anschauen werden. Wir wählen jetzt eine der vorgefertigten Stimmen aus, wo wir auch sehen, welche Akzente die Stimme hat, was ihre Charakteristika sind und für welche Fälle diese gut geeignet sind. Lass dich nicht von den Akzenten irritieren, wir können alle Stimmen auch für deutsche Texte benutzen. Den unter dem Voice Model, können wir das Multilingual Modell auswählen, wo wir auch sehen, welche Sprache dort unterstützt werden. Hier nutze ich eigentlich immer das V2 Modell. Als dritte Option haben wir dann noch die Stimmeinstellungen, was sehr viel ausmachen kann. Dort können wir Variationen zur Stabilität, Klarheit und Stil der Stimme einstellen. Das sind die Optionen, welche die Stimme authentischer macht und sie nicht so robotermäßig klingen lässt. An den roten Bereichen sehen wir, welche aktuell schwerer sind für die Erstellung und wo es eher zu Fehlern kommt. Hier rate ich dir einfach ein wenig auszuprobieren, welche Reglereinstellungen für dich am besten sind. Im letzten Abschnitt geben wir dann unseren Text ein. Die Sprache wird automatisch erkannt, anhand des Textes. Am unteren linken Rand sehen wir auch, wie viele Zeichen wir aktuell hineingeschrieben haben und wie viele Zeichen wir noch diesen Monat in unserem Account übrig haben. Sobald wir die Stimme generieren lassen, werden die Zeichen von unserem Kontingent abgezogen. Das generierte Audio, wird uns dann im Player am unteren Rand abgespielt, wo wir sie auch direkt über den Pfeil als Audiodatei herunterladen können oder einen Link zum Teilen abrufen. Gefällt uns das Ergebnis bislang nicht, können wir einfach die Einstellungen noch mal ändern oder den Text und dann das Audio erneut generieren. Beim Text ist es auch vorteilhaft, mit Satzzeichen, Anführungsstrichen oder drei Punkten zu arbeiten, um eine individuellere Aussprache zu erhalten. So können wir also Text zu Sprache erstellen. Über History im oberen Menü, können wir auch in einer chronologischen Ansicht, alle unsere generierten Versionen erneut abspielen oder herunterladen, falls wir das aus Versehen vergessen haben. Dort können wir diese auch wieder unwiderruflich löschen, was praktisch ist, falls wir ein Audio geteilt haben und das nicht mehr teilen möchten.

Sprache zu Sprache (Übersetzung/Dubbing)

Neben Text zu Sprache können wir mit ElevenLab auch Sprache zu Sprache nutzen, was meistens zu noch besseren Ergebnissen führt. 

Dafür können wir einmal Sprache zu Sprache unter Speech Synthesis auswählen. Dort können wir dann eine Audiodatei hochladen oder aufnehmen, welche wir dann von einer neuen Stimme sprechen lassen können. Hier können wir die gleichen Stimmen nutzen, wie bei der Text zu Sprache und haben auch die Möglichkeit die Spracheinstellungen zu machen. Das ist hier aber meistens nicht notwendig, da die neue Stimme sich an der originalen Stimme und ihrer Sprechart orientiert. Als Voice-Modell haben wir hier nur das englische, aber es hat auch schon mit einer deutschen Audiodatei funktioniert.

Eine weitere Möglichkeit, wie wir Sprache zu Sprache nutzen können, ist über das Dubbing, im oberen Menü. Dort können wir sogar eine Übersetzung für ein Video oder Audio erstellen. Praktischerweise kann man hier auch direkt ein YouTube, TikTok oder anderes Video einfach per Link auswählen und dann festlegen, was die ursprüngliche Sprache ist und was die neue Sprache sein soll. Hier müssen wir keine Stimme auswählen, da die originale Stimme aus dem Video genutzt wird. Für die bessere Erkennung der Stimmen, können wir die Anzahl der Sprecher noch angeben, sowie die Videoauflösung und auch sagen, dass nur ein bestimmter Zeitraum im Video übersetzt werden soll. Schließlich geben wir dem ganzen einen Namen und sehen am unteren Rand auch, wie viel unserer Zeichen diese Übersetzung kosten wird. Indem wir ein Wasserzeichen zum Video hinzufügen, können wir auch 33 % der Zeichenkosten reduzieren. Die Übersetzung kann dann je nach Länge einige Minuten dauern und wir sehen sie hier in der Übersicht. Sobald sie fertig ist, können wir sie herunterladen, im Browser anschauen oder wieder löschen. 

Eigene Stimmen erstellen (VoiceLab)

Mit ElevenLabs haben wir auch die Möglichkeit, unsere eigenen Stimmen zu verwenden. Dazu finden wir alles im VoiceLab-Bereich im oberen Menü. Je nach Abo können wir hier eigene geklonte oder generierte Stimme hinzufügen. Dort haben wir insgesamt vier unterschiedliche Möglichkeiten. 

Einmal das Voice Design, womit eine zufällige neue Stimme generieren können. Dafür geben wir einfach das Geschlecht, Alter und Akzent an. Dann müssen wir ein Beispiel generieren, mit mindestens 100 Zeichen. Diese Stimmen können wir hier nur mit English erstellen. Später können wir sie aber auch in anderen Sprachen nutzen, über das Multilingual Tool. Sind wir zufrieden mit der Stimme, können wir sie speichern, indem wir ihr einen Namen geben und optional eine Beschreibung. Das ist praktisch, wenn wir viele eigene Stimmen erstellen und nicht vergessen wollen, welche Stimmte, welche war. In der VoiceLab Übersicht, sehen wir dann unsere erstellte Stimme, wo wir sie auch immer wieder bearbeiten können oder löschen. Im Text-to-Speech Bereich, können wir die Stimme dann einfach auswählen und verwenden. 

Eine erstellte Stimme von uns können wir am oberen rechten Rand auch teilen mit der Community. Das sind die Stimmen, welche wir bei der Erstellung oder oben im Menü unter der “Voice Library” finden. Dort finden wir alle von der Community erstellten Stimmen und können diese bei uns hinzufügen.

Neben diesen komplett generierten Stimmen können wir jetzt auch Stimmen anhand von eigenen Aufnahmen erstellen lassen. Dafür benötigen wir aber ein kostenpflichtiges Abo. Dort haben wir dann das Instant Voice Cloning, welches ca. 1 Minute Audio von der Stimme benötigt, im besten Fall ohne Störgeräusche jeglicher Art. Dort laden wir einfach die Audio- oder Videodatei hoch und geben der Stimme einen Namen. Dann können wir unter Labels noch Attribute für die Stimme hinzufügen. Bspw. das Geschlecht, das Alter und den Akzent. So wie wir es auch von den zuvor generierten Stimmen kennen. Anschließend beschreiben wir die Stimme noch kurz auf Englisch und dann müssen wir bestätigen, dass wir die Rechte an der Stimme besitzen, um eine synthetische Version davon erstellen zu dürfen. Nach ein paar Sekunden ist die Stimme dann erstellt, wir sehen sie in der Übersicht und können sie verwenden. 

Diese eigene Stimmenerstellung können wir dann auch noch professioneller machen mit dem Professional Voice Cloning. Das ist ab einem Creator-Abo möglich und nur für eine Stimme. Dort sollten wir im besten Fall 3 Stunden sauberes Material von der Stimme hochladen und können diese ebenfalls Labeln und eine Beschreibung hinzufügen. Bevor diese Stimme aber erstellt wird, müssen wir noch verifizieren, dass es unsere Stimme ist. Dafür müssen wir im Browser einen Text vorlesen, der uns angezeigt wird. Sobald diese Verifizierung erfolgreich war, wird die Stimme erstellt. Das kann einige Wochen dauern und wir sehen in der Übersicht, was der aktuelle Status der Stimme ist. Sobald sie fertig ist, können wir sie verwenden. Im Vergleich zur Instant Voice, fand ich meine Stimme, etwas akkurater.

Projekte (Hörbücher)

ElevenLabs bietet für große “Text zu Sprache” Projekte auch einen optimierten Arbeitsbereich, namens Projekte an. Dieser ist ab einem Creator-Abo verfügbar. Das ist ideal, wenn du bspw. ein Hörbuch erstellen möchtest. Dort können wir dann direkt eine epub, pdf oder txt hochladen oder ein leeres Projekt erstellen. Dort wählen wir dann unseren primären Sprecher für das Projekt aus und welches Modell wir dafür nutzen möchten. Je nach Abo können wir hier auch eine bessere Qualität für die Generierung auswählen, welche aber auch mehr Zeichen kostet. Für den Download der Audios, können wir auch eine Normalisierung anwenden, sowie Metadaten zu den Audiodateien hinzufügen. Schließlich können wir auch direkt ein Wörterbuch hinzufügen, für bestimmte Wörter und wie diese ausgesprochen werden sollen. Das ist aber alles kein Muss und wir können später immer noch machen. Haben wir das Projekt erstellt, befinden wir uns in einem Editor, wo wir den Text auf die Seiten schreiben können. Kapitel können hier auch automatisch erkannt werden, oder über die Überschrift-Formatierungen am oberen Rand selbst hinzugefügt werden. Die Kapitel sehen wir dann am rechten Rand. Die sind dafür gut, wenn wir nur einzelne Kapitel herunterladen bzw. erneut generieren lassen möchten. Haben wir einen Text im Editor ausgewählt, können wir am rechten Rand auch seine Stimme anpassen, womit wir auch mit mehreren Stimmen im Projekt arbeiten können. Am oberen Rand können wir den Text dann direkt synthetisieren lassen, wo wir rechts auch unsere verbleibenden Zeichen immer sehen. Aus dem Projekt können wir auch immer wieder rausgehen und später weiter daran arbeiten. Am oberen rechten Rand können wir alle Einstellungen noch mal aufrufen. Um das Projekt als Audiodatei herunterladen zu können, müssen wir es erst konvertiert haben. In der Konvertierungsübersicht sehen wir alle Kapitel und können diese einzeln konvertieren, wo wir auch sehen, wie viel Kapazität diese in Anspruch nimmt. Sobald das Kapitel einmal konvertiert wurde, können wir es auch herunterladen.

Einstellungen

Werfen wir abschließend noch einen Blick in die Einstellungen, welche wir über unser Profilbild am oberen rechten Rand aufrufen können. Dort können wir unter “Profile” unsere E-Mail-Adresse und Passwort ändern, sowie 2-Faktor-Authentifizierung hinzufügen und unseren API-Key anzeigen oder neu generieren lassen. Hier können wir auch unseren kompletten Account löschen. Unter “Abonnement” können wir dann unser aktuelles Abo verwalten, wo wir auch sehen, wie viele Zeichen wir bereits verwendet haben, wann diese zurückgesetzt werden und was unser nächster Rechnungsbetrag. Haben wir ein Abo, welches das dazubuchen, von weiteren Zeichen ermöglicht, können wir hier auch aktivieren, dass dies automatisch passieren kann. Über die “Abo verwalten” Schaltfläche, können wir auch unsere Zahlungsmethode ändern, Rechnungen herunterladen, sowie das Abo kündigen. Scrollen wir auf der Aboseite weiter runter, können wir auch das Abo einfach zu einem der anderen wechseln.

Probier jetzt ElevenLabs kostenlos über diesen Link* aus und mach dir selbst ein Bild. Für mehr Tutorials zu vielen anderen AI-Anwendungen und Programmen kannst du meinen YouTube-Kanal gerne kostenlos abonnieren.

Über dieses Tutorial

Geschrieben von Simon
Das letzte mal aktualisiert am 14.01.2024
Dieses Tutorial enthält Affiliate-Links.