Jak tworzyć treści audio w ElevenLabs — Transcript

Poznaj, jak tworzyć profesjonalne treści audio w ElevenLabs bez studia i doświadczenia, korzystając z AI i klonowania głosu.

Key Takeaways

  • ElevenLabs umożliwia tworzenie profesjonalnych treści audio bez studia i doświadczenia.
  • Istnieje pięć głównych metod pracy z głosem, dostosowanych do różnych potrzeb i poziomów zaawansowania.
  • Klonowanie głosu wymaga potwierdzenia własności, co zwiększa bezpieczeństwo i legalność użycia.
  • Voice Remixing to innowacyjna funkcja pozwalająca na kreatywne modyfikacje głosu bez nagrań.
  • Platforma jest szeroko stosowana przez duże firmy i dostępna dla każdego użytkownika.

Summary

  • Wprowadzenie do platformy ElevenLabs umożliwiającej tworzenie profesjonalnych treści audio bez sprzętu i doświadczenia.
  • Prezentacja 5 głównych ścieżek pracy z głosem: biblioteka głosów, voice design, Instant Voice Cloning, Professional Voice Cloning oraz Voice Remixing.
  • Biblioteka głosów oferuje tysiące gotowych głosów z różnymi akcentami i stylami, idealna do szybkiego startu.
  • Voice design pozwala na tworzenie głosów na podstawie opisów słownych, idealne przy konkretnych wymaganiach.
  • Instant Voice Cloning umożliwia szybkie klonowanie własnego głosu na podstawie krótkiej próbki nagrania.
  • Professional Voice Cloning wymaga dłuższych, wysokiej jakości nagrań i pozwala na tworzenie bardziej zaawansowanych klonów głosu.
  • Voice Captcha zabezpiecza przed nieautoryzowanym klonowaniem głosów, wymagając potwierdzenia własności głosu.
  • Voice Remixing pozwala na modyfikację istniejącego głosu, np. dodanie akcentu lub zmiana wieku, bez konieczności nagrywania nowych próbek.
  • Platforma jest używana przez znane firmy i integruje się z popularnymi aplikacjami, np. Fortnite.
  • Cały proces jest dostępny dla każdego, kto ma komputer i przeglądarkę, bez potrzeby specjalistycznej wiedzy.

Full Transcript — Download SRT & Markdown

00:06
Speaker A
Stop. Zanim powiem cokolwiek, posłuchaj tego. I jeszcze tego. Oraz... Tak, dobrze słyszysz.
00:43
Speaker A
To był mój głos, po hiszpańsku, arabsku i niemiecku, a ja nawet nie znam tych języków, serio.
00:54
Speaker A
To, co właśnie usłyszeliście, w sensie ten tekst, przygotowali moi koledzy z Hiszpanii, ze Zjednoczonych Emiratów i z Niemiec. Ja tylko przed sekundą kliknąłem "generuj".
01:04
Speaker A
Bez studia. Moim głosem i w najwyższej jakości. A za chwilę pokażę ci, jak ty możesz zrobić dokładnie to samo.
01:14
Speaker A
Cześć, nazywam się Kamil Sołdacki i jestem internistą dźwięku w ElevenLabs. Witaj w "Umiejętnościach Jutra AI".
01:38
Speaker A
Zaczynamy? ElevenLabs to firma zajmująca się badaniami i wdrażaniem audio AI. Ale jeśli miałbym powiedzieć to prościej, to platforma, dzięki której każdy, dosłownie każdy, może tworzyć profesjonalne treści audio bez studia, bez sprzętu i bez doświadczenia w produkcji dźwięku.
01:46
Speaker A
Nasze rozwiązania są używane przez NVIDIA, ESPN, Time, The Washington Post i wiele, wiele innych.
01:59
Speaker A
A jeśli ty albo twoje dzieci grają w Fortnite, tam też nas usłyszysz. Zanim jednak powiem ci, co możesz zrobić, chcę powiedzieć, czego nie musisz robić.
02:12
Speaker A
Nie musisz być specjalistą od audio. Nie musisz mieć mikrofonu studyjnego. Nie musisz wiedzieć, czym jest sample rate ani bit rate, choć warto to wiedzieć.
02:28
Speaker A
Ale wystarczy komputer i przeglądarka. I najważniejsze: pomysł na to, do kogo chcesz mówić. W tej lekcji skupimy się na jednej konkretnej rzeczy, tworzeniu treści audio.
02:43
Speaker A
Dzisiaj głos, tekst i gotowy plik audio. Widzisz ten interfejs? Spędzimy kilkanaście minut tutaj. Pokażę ci dokładnie, gdzie klikać i dlaczego.
02:54
Speaker A
Pierwszy krok tworzenia każdego materiału audio to nie tekst, nie skrypt. To głos. Bo głos to nie tylko, jak coś brzmi.
03:07
Speaker A
Głos buduje zaufanie, wyraża osobowość i definiuje odbiorcę. Zły głos to jak dobry tekst w złej czcionce. Czyta się, ale oczy bolą.
03:23
Speaker A
W ElevenLabs można powiedzieć, że jest 5 głównych ścieżek pracy z głosem. Omówię każdą w jednym zdaniu. Dosłownie w jednym zdaniu, bo ta prostota jest właśnie tym, co mnie kręci najbardziej.
03:36
Speaker A
Ścieżka pierwsza: biblioteka głosów. Kilkanaście tysięcy gotowych głosów od naszej społeczności. Mężczyźni, kobiety, różne akcenty, języki, style.
03:47
Speaker A
Chcesz lektora z brytyjskim akcentem do raportu finansowego? Jest. Ciepły głos do onboardingu klientów? Proszę bardzo.
04:04
Speaker A
Energetyczny głos do reklamy w Meksyku? Nie ma sprawy. Filtrujesz po języku, nastroju, zastosowaniu. I w krótką chwilę znajdujesz głos gotowy do pracy. Kiedy warto z tego skorzystać?
04:21
Speaker A
Zawsze, kiedy chcesz zacząć szybko. Biblioteka głosów to punkt zero. Ścieżka druga: voice design. Uszami wyobraźni słyszysz idealny głos do swojego projektu.
04:35
Speaker A
I możesz go opisać po prostu słowami. Pokażę ci to teraz na żywo. Wchodzę w Voices, klikam "Create Voice" i wybieram "Voice Design".
04:49
Speaker A
Pierwszy prompt spróbujmy po polsku. Mężczyzna w średnim wieku i niech będzie ciepły i spokojny.
05:08
Speaker A
[pierwszy głos] "Drodzy słuchacze, powinienem być mężczyzną w średnim wieku, ciepłym i spokojnym." [drugi głos] "Drodzy słuchacze, powinienem być mężczyzną w średnim wieku, ciepłym i spokojnym." [trzeci głos] "Drodzy słuchacze, powinienem być mężczyzną w średnim wieku, ciepłym i spokojnym." Co ty na to?
05:23
Speaker A
To spróbujmy drugi prompt. Po angielsku. "Young woman, energetic and bright, slight American accent, perfect for social media ads." Sprawdzimy, czy zadziała?
05:33
Speaker A
[pierwszy głos] "Camille's stories are full of energy, heart, and that little spark that makes you want to listen till the very end." [drugi głos] "Camille's stories are full of energy, heart, and that little spark that makes you want to listen till the very end."
05:43
Speaker A
[trzeci głos] "Camille's stories are full of energy, heart, and that little spark that makes you want to listen till the very end." Hit Follow, turn up the volume, and let's make your feed feel a little brighter today.
05:56
Speaker A
I to wystarczyło. To były dwa prompty. Dwa zupełnie różne opisy. Łącznie 6 propozycji. Gotowe do użycia.
06:07
Speaker A
Kiedy warto skorzystać z voice design? Kiedy masz bardzo konkretny brief na głos, konkretny pomysł, a żaden z biblioteki nie pasuje.
06:17
Speaker A
Ścieżka trzecia i czwarta to Instant Voice Cloning oraz Professional Voice Cloning. I tu robi się naprawdę ciekawie.
06:27
Speaker A
Bo to są dwie różne ścieżki do dwóch różnych celów, choć działają zamiennie. Ale zacznijmy od Instant Voice Cloning, tak zwane IVC.
06:41
Speaker A
I zróbmy to na żywo. Klikam "Create Voice", wybieram "Instant Voice Cloning". I teraz nagrywam próbkę. Prosto do mikrofonu w moim komputerze.
06:54
Speaker A
Bez studia, bez sprzętu. Za chwilę usłyszysz mój głos, ale to nie będę jakby ja, to będzie klon mojego głosu.
07:10
Speaker A
I klikam "Create". Czekam kilka sekund. Zobaczcie, i gotowe. Mam klon. To sprawdźmy. Wpiszę jakiś tekst i wygeneruję.
07:22
Speaker A
"Cześć, co słychać? Jak tam idzie zdobywanie wiedzy?" To było raptem kilkanaście sekund. Jakość? Oceńcie sami, ale wydaje mi się, że bardzo dobra.
07:35
Speaker A
Choć powiem szczerze, słyszalny jest margines AI. Ale Instant Voice Clon to narzędzie do szybkiego testowania, prototypowania, materiałów wewnętrznych.
07:51
Speaker A
Ale przejdźmy teraz do Professional Voice Cloningu. Bo tu wchodzimy na zupełnie inny poziom. Professional Voice Clon potrzebuje minimum 10 minut czystych nagrań wysokiej jakości.
07:58
Speaker A
Warto zaopatrzyć się w mikrofon studyjny lub po prostu wynająć lokalne studio nagrań na godziny.
08:08
Speaker A
Do nagrania potrzeba treści, najlepiej długiej, ze zróżnicowanym tekstem, żeby model złapał pełen zakres głosu.
08:22
Speaker A
Ja wybrałem "Robinsona Crusoe", rozdział 6. Klasyk, spokojny, narracyjny, długi tekst. Będzie idealnie. Zaczynamy. Przesyłam nagranie.
08:38
Speaker A
Najlepiej 30 minut czystego nagrania, ale im więcej, tym lepiej. Opisuję, labeluję, wybieram język. Krok kolejny. I to jest bardzo ważny moment.
08:48
Speaker A
Weryfikacja głosu. Voice Captcha. To zabezpieczenie, które sprawia, że nie możesz sklonować cudzego głosu. Nagrywasz próbkę na żywo.
08:58
Speaker A
System porównuje z przesłanym materiałem i potwierdza: tak, to twój głos. Dopiero wtedy startuje trening.
09:06
Speaker A
Teraz musisz poczekać na maila, że głos został wytrenowany i jest gotowy do użycia. Zajmuje to zazwyczaj kilka godzin.
09:19
Speaker A
Sprawdźmy efekt. "Generować albo nie generować? Oto jest pytanie." I co ty na to? Ale jest prosta zasada. IVC do testowania.
09:31
Speaker A
PVC do produkcji. Zacznij od Instant. Sprawdź, czy twój kierunek ma sens. Jeśli zadziała, wejdź w Professional Voice Clon.
09:43
Speaker A
Wydaje mi się, że w twojej głowie pojawiło się teraz pewne pytanie. "A gdyby tak...?" Nie. W ElevenLabs możesz klonować tylko swój głos lub głos, do którego masz prawa.
09:55
Speaker A
Bo każdy głos przechodzi Voice Captcha. To fundamentalne dla naszego podejścia do bezpieczeństwa. Ścieżka piąta: Voice Remixing.
10:07
Speaker A
To stosunkowo nowa funkcja i szczerze, uwielbiam ją pokazywać. Bo tu nie chodzi o stworzenie nowego głosu, chodzi o przetransformowanie istniejącego głosu bez nagrywania czegokolwiek od nowa.
10:15
Speaker A
Pokażę ci to na moim własnym głosie. Klikam "Voice Remixing". Wybieram swój głos jako bazę.
10:36
Speaker A
Zróbmy pierwszą wersję. Dodajmy akcent włoski. [pierwszy głos] "Hehe, ciao, jak się masz? Ja jestem Luigi, prosto z pięknej Italii. Wiesz, zawsze mówię, że życie jest jak dobra pasta, trzeba je celebrować, z pasją.
10:51
Speaker A
I z sosem pomidorowym, oczywiście." [drugi głos] "Hehe, ciao, jak się masz? Ja jestem Luigi, prosto z pięknej Italii. Wiesz, zawsze mówię, że życie jest jak dobra pasta, trzeba je celebrować, z pasją.
11:04
Speaker A
I z sosem pomidorowym, oczywiście." I co? To nadal ja, ale jakby inny ja. Ten, który dorastał jedząc makaron i pizzę. Ale zróbmy to...
11:20
Speaker A
inaczej. Wersja druga. I tu ostrzegam, bo to już jest czyste szaleństwo. Zrobię z siebie... dziadka.
11:35
Speaker A
[pierwszy głos] "No no proszę, niech pan tak nie pędzi. Na wsi to mamy czas, tu się nigdzie nie spieszymy, młodzi to by tylko gnali." [drugi głos] "No no proszę, niech pan tak nie pędzi.
11:44
Speaker A
Na wsi to mamy czas, tu się nigdzie..." [trzeci głos] "No no proszę, niech pan tak nie pędzi.
11:54
Speaker A
Na wsi to mamy czas, tu się nigdzie nie spieszymy, młodzi to by tylko gnali, a potem co?
12:08
Speaker A
Zapominają, co w życiu ważne. Ja tam swoje przeżyłem, swoje widziałem, teraz to już tylko patrzę, jak wnuki rosną.
12:22
Speaker A
I żeby zdrowie było, to najważniejsze." [czwar
12:34
Speaker A
Bez castingu, bez studia, i tylko w kilkadziesiąt sekund. Dobra zasada, którą chcę, żebyś zapamiętał: nie zaczynaj od najbardziej zaawansowanej opcji.
12:47
Speaker A
Zacznij od tej, która najszybciej pozwoli ci przetestować pomysł. Masz prosty projekt? Wejdź do biblioteki głosów.
12:57
Speaker A
A masz konkretny brief na głos? Voice Design. Chcesz własną markę głosową? Wybierz Voice Cloning.
13:06
Speaker A
Masz głos, który prawie pasuje? Voice Remixing. I jeszcze jedno, głos powinien wynikać z odbiorcy i celu, a nie tylko z samego... brzmienia.
13:19
Speaker A
Ciepły głos do newslettera kancelarii prawnej? Niekoniecznie. Formalny ton do onboardingu dla pokolenia Z? No też niekoniecznie.
13:29
Speaker A
Ale wiesz co? Właśnie dlatego, że masz te wszystkie narzędzia, możesz to sprawdzić pod prąd.
13:37
Speaker A
Dziadek czytający newsletter kancelarii prawnej? To raptem kilka kliknięć. Energetyczny, młody głos w kampanii dla emerytów? Come on, sprawdźmy.
13:48
Speaker A
A co jeśli zaskoczy? Badaj, testuj, eksperymentuj. Bo tylko ci, którzy mają odwagę próbować rzeczy nieoczywistych, piją szampana.
13:58
Speaker A
Dobierz głos do rozmowy, którą chcesz mieć. Albo do tej, której jeszcze nikt nie miał.
14:05
Speaker A
Dobra, to teraz praktyka. I żeby nie było nudno, nie będę używał jakiegoś sterylnego przykładu korporacyjnego.
14:15
Speaker A
Użyję czegoś, co zna każdy. Wybieram głos. Głęboki dojrzały. Wybieram model. I... generuję. [głos pierwszy] "Dzień dobry.
14:34
Speaker A
Niestety nie będę mógł pojawić się na spotkaniu, gdyż mój kot usiadł mi na klawiaturze i usunął wszystkie pliki." Jest już nieźle.
14:44
Speaker A
Ale teraz zmieniam model. Na Eleven wersja trzecia. I dodaję tagi emocji. [głos drugi] "Dzień dobry.
14:59
Speaker A
Niestety nie będę mógł pojawić się na spotkaniu, gdyż mój kot usiadł mi na klawiaturze i usunął... wszystkie pliki." To jest ta sama wymówka, ten sam tekst, zmienił się tylko model.
15:17
Speaker A
I dodałem tagi. Słyszysz różnicę? Nie dlatego, że jest głośniej albo wolniej. Słyszysz, że za tym głosem jest emocja.
15:29
Speaker A
Westchnienie jest prawdziwe. Pauza jest prawdziwa. Bo ElevenLabs to nie jest syntezator mowy. I teraz pomyśl przez chwilę, jeśli ElevenV3 robi to z wymówką od kota, co zrobi z twoją kampanią, z twoim audiobookiem, z twoim agentem, który rozmawia z klientem trzy po północy?
15:52
Speaker A
Pamiętaj, pierwsza wersja nie musi być idealna. Najważniejsze jest szybkie sprawdzenie, czy kierunek działa. A później należy dopasować tekst, model, głos, tagi ekspresji.
16:07
Speaker A
Okej, powiedziałem ci o pięciu ścieżkach pracy z głosem. Ale ElevenLabs to coś więcej niż te pięć omówionych przeze mnie narzędzi.
16:16
Speaker A
Pozwól, że zrobię ci szybki zwiad, co jeszcze czeka na ciebie na platformie. Studio to pełne środowisko produkcyjne.
16:26
Speaker A
Wrzucasz PDF, ePUB, link do artykułu albo wideo. I na edytowalnym timeline układasz narrację, muzykę, efekty i napisy.
16:35
Speaker A
Wszystko w jednym miejscu. Dubbing. Czyli tłumaczysz wideo na inne języki, ale zachowując oryginalny głos, emocje i intonację. Twoja twarz, twój głos, ale może po koreańsku, hiszpańsku albo hindi?
16:52
Speaker A
Znasz podcasty Andrew Hubermana albo Lexa Fridmana? Tak, ich odcinki są już zdabingowane ich własnymi głosami.
17:01
Speaker A
Nagrywasz raz, reszta dzieje się w tym narzędziu. W tylu językach, ile potrzebujesz. Voice Changer. Bierzesz dowolne nagranie...
17:15
Speaker A
i zmieniasz głos na inny. [pierwszy głos] "Dowolny głos z biblioteki." [drugi głos] "Może coś z Voice Design?" Emocje i intonacja zostają, tylko barwa się zmienia.
17:26
Speaker A
Voice Isolator, czyli wyciągasz czysty głos z nagrania pełnego szumu, tłumu i wiatru. To bardzo proste, ale też bardzo pożądane.
17:43
Speaker A
Sound Effects. Generujesz dowolny efekt dźwiękowy z opisu, z promptu. Na przykład eksplozja na Marsie?
17:52
Speaker A
Kroki na drewnianej podłodze w deszczową noc? Opisujesz słowami i masz gotowy plik audio. Flows, czyli canvas, na którym łączysz wszystkie modele w jeden pipeline, obraz, wideo, głos, lipsync, muzyka i efekty.
18:10
Speaker A
Budujesz raz, uruchamiasz ile razy chcesz. Kiedyś robiłeś to w minimum pięciu różnych narzędziach. Teraz? W jednym miejscu.
18:21
Speaker A
Music. To proste. Generujesz muzykę w dowolnym stylu z opisu tekstowego. Dżingiel, podkład, może intro do podcastu.
18:31
Speaker A
Muzyka, która jest twoja od pierwszej nuty. Image and Video. Generujesz obrazy i wideo. Skoro mamy już głos, dźwięk i muzykę, logiczne, że obraz też tutaj jest.
18:45
Speaker A
Zyskujesz dostęp do praktycznie wszystkich modeli w branży. Audio Native. Osadzasz odtwarzacz na stronie i ElevenLabs czyta każdy artykuł na głos, automatycznie.
19:00
Speaker A
Twój blog, strona, zaczyna mówić sama z siebie. Audiobooks, czyli tworzysz pełne audiobooki z dowolnego tekstu, z dystrybucją na Spotify i inne platformy.
19:16
Speaker A
Scribe to zamiana mowy na tekst w ponad 90 językach z rozpoznawaniem mówców. Spotkanie wywiad podcast.
19:26
Speaker A
Masz transkrypt, zanim zdążysz zamknąć laptopa. Działa również real-time. Agents. Z tym musisz być cierpliwy.
19:35
Speaker A
Bo to jest właśnie temat naszej następnej lekcji. Bo wszystko, co dziś pokazałem, głos, wiedzę, osobowość, dzięki Agents teraz to wszystko zaczyna rozmawiać z twoimi klientami.
19:49
Speaker A
Samo. O dowolnej porze dnia i nocy. Ale jeden ważny wniosek, zanim przejdziemy dalej. Audio AI może być twoim punktem wejścia do szerszego wykorzystania AI w komunikacji.
20:03
Speaker A
Nie musisz zaczynać od skomplikowanej automatyzacji. Zacznij od jednego komunikatu, jednej narracji, jednego głosu, który reprezentuje twoją markę, który reprezentuje ciebie.
20:17
Speaker A
I sprawdź, jak reagują odbiorcy. A, i jeszcze jedna ważna rzecz. Bo ja sobie szanuję szczerość i transparentność.
20:26
Speaker A
Naprawdę w ElevenLabs rozwijamy się w zawrotnym tempie. Każdego dnia pojawiają się aktualizacje, nowe wersje, świeże możliwości. A to oznacza, że w chwili, gdy oglądasz ten materiał, coś już może wyglądać inaczej.
20:43
Speaker A
Może mieć inną nazwę, albo może istnieć zupełnie nowe narzędzie lub model, o którym jeszcze dziś nie wspomniałem.
20:52
Speaker A
I to nie jest wymówka. To jest zaproszenie. Sprawdzaj dokumentację. Tam zawsze znajdziesz aktualny stan rzeczy.
21:02
Speaker A
Zaglądaj na nasz kanał YouTube. Mamy świetne, aktualne tutoriale. I przede wszystkim, pielęgnuj ciekawość. Przesuwaj granice tego, co możliwe.
21:14
Speaker A
Bo kto wie, może to właśnie ty odkryjesz zastosowanie AI audio, o którym my jeszcze nie pomyśleliśmy.
21:22
Speaker A
Podsumujmy to, co dziś zrobiliśmy. Zrozumiałeś, czym jest ElevenLabs i do czego służy. Poznałeś pięć ścieżek pracy z głosem.
21:34
Speaker A
Nauczyłeś się dobierać głos do celu, odbiorcy i rodzaju treści. I mam nadzieję, stworzyłeś lub zaplanowałeś swój pierwszy prosty materiał audio.
21:48
Speaker A
I na koniec, myśl, którą chcę, żebyś zabrał z tej lekcji. Audio AI nie jest tylko o technologii.
21:57
Speaker A
Jest o komunikacji. Technologia jest narzędziem. Pytanie jest zawsze to samo, do kogo mówisz i co chcesz, żeby poczuł?
22:07
Speaker A
Zacznij od tego pytania. Technologia ElevenLabs zajmie się resztą. Do zobaczenia w kolejnej lekcji, gdzie weźmiemy głos i sprawimy, że zacznie prowadzić prawdziwe rozmowy.
Topics:ElevenLabstworzenie audioklonowanie głosuvoice designvoice remixingsztuczna inteligencjaaudio AIprodukcja dźwiękubez studiaUmiejętności Jutra AI

Frequently Asked Questions

Czy do korzystania z ElevenLabs potrzebuję specjalistycznego sprzętu?

Nie, do korzystania z ElevenLabs wystarczy komputer i przeglądarka internetowa. Nie jest wymagane posiadanie mikrofonu studyjnego ani doświadczenia w produkcji dźwięku.

Jak działa Instant Voice Cloning w ElevenLabs?

Instant Voice Cloning pozwala na szybkie stworzenie klonu własnego głosu na podstawie krótkiej próbki nagrania z mikrofonu komputera. Jest to narzędzie przeznaczone głównie do testowania i prototypowania.

Czy mogę sklonować dowolny głos w ElevenLabs?

Nie, ElevenLabs wymaga potwierdzenia własności głosu poprzez Voice Captcha, co uniemożliwia nieautoryzowane klonowanie cudzych głosów. Można klonować tylko swój głos lub głosy, do których ma się prawa.

Get More with the Söz AI App

Transcribe recordings, audio files, and YouTube videos — with AI summaries, speaker detection, and unlimited transcriptions.

Or transcribe another YouTube video here →