Budowa głosowego agenta AI w ElevenLabs — Transcript

Krok po kroku budowa głosowego agenta AI w ElevenLabs z wykorzystaniem personalizacji głosu i modeli językowych.

Key Takeaways

Agent głosowy to interaktywny system rozumiejący i generujący odpowiedzi w czasie rzeczywistym, nie tylko nagrany komunikat.
Skupienie agenta na jednym konkretnym zadaniu zwiększa jego skuteczność i łatwość wdrożenia.
Personalizacja agenta poprzez nadanie mu persony i stylu komunikacji jest kluczowa dla pozytywnego doświadczenia użytkownika.
Normalizacja tekstu w języku polskim jest trudna, ale można ją skutecznie rozwiązać poprzez odpowiednie instrukcje w System Prompcie.
Wybór modelu językowego powinien uwzględniać kompromis między jakością odpowiedzi a niską latencją, aby rozmowa była naturalna.

Summary

Wprowadzenie do idei agenta głosowego jako inteligentnego systemu rozumiejącego i odpowiadającego na pytania w czasie rzeczywistym.
Omówienie znaczenia skupienia agenta na jednym konkretnym zadaniu dla skuteczności i łatwości testowania.
Przedstawienie przykładowych zastosowań agentów głosowych, takich jak FAQ, onboarding, sprzedaż, edukacja i informacja.
Budowa agenta edukacyjnego o nazwie 'Internista dźwięku' z ciepłym, konkretnym stylem i nutą humoru.
Definicja persony agenta, odbiorców, celu istnienia i wyróżniającego stylu komunikacji.
Konfiguracja agenta w dashboardzie ElevenLabs: wybór języka, modelu głosowego i pierwszej wiadomości.
Tworzenie System Prompt definiującego osobowość, zakres wiedzy i zasady normalizacji tekstu dla naturalnej polszczyzny.
Podkreślenie wyzwania normalizacji tekstu w języku polskim i zastosowanie specjalnej instrukcji w System Prompcie.
Integracja bazy wiedzy agenta z dokumentacją i blogiem ElevenLabs dla aktualnych informacji.
Wybór modelu językowego (LLM) jako 'mózgu' agenta, balansowanie między szybkością a jakością odpowiedzi.

Full Transcript — Download SRT & Markdown

Speaker A

Wyobraź sobie, że twój najlepszy pracownik, ten, który zna na pamięć cennik, procedury i odpowiedzi na każde pytanie klienta, nigdy nie idzie na urlop.

Speaker A

Nigdy nie choruje. Odbiera o trzeciej w nocy w niedzielę i w Sylwestra. I brzmi dokładnie tak, jak chcesz.

Speaker A

Z głosem, który zaprojektowałeś. Z wiedzą, którą mu dałeś. W poprzedniej lekcji nauczyłeś się tworzyć treści audio i wytrenowałeś swój własny głos.

Speaker A

Dziś bierzemy ten głos i wpuszczamy do niego mózg. I mam dla ciebie niespodziankę na koniec tej lekcji.

Speaker A

Ale nie zdradzę teraz, co to. Zostań do końca. Zaczynamy. Zanim klikniemy cokolwiek w dashboardzie, porozmawiajmy o tym, czym w ogóle jest agent głosowy.

Speaker A

Agent głosowy to nie jest nagrany komunikat. To nie jest IVR, które pyta: "Naciśnij 1, jeśli chcesz porozmawiać z konsultantem".

Speaker A

Agent głosowy to system, który słyszy pytanie, rozumie intencję, generuje odpowiedź i mówi ją na głos, w czasie rzeczywistym. Prowadzi rozmowę.

Speaker A

Reaguje na kontekst i robi to non stop. Nie męczy się, dla wielu osób jednocześnie.

Speaker A

Brzmi skomplikowanie? Za chwilę zbudujemy agenta w kilkanaście minut. Ale najpierw pytanie, które zawsze zadaję, zanim zaczynam jakikolwiek projekt agenta, jaki jeden problem ten agent ma rozwiązać?

Speaker A

Nie - wszystko. Jeden problem, jedna grupa odbiorców, jedno zadanie. Bo agent, który robi wszystko, często nie robi dobrze niczego.

Speaker A

Agent, który ma jedno konkretne zadanie, jest skuteczny, szybki i łatwy do testowania. Podam kilka przykładów, które świetnie sprawdzają się jako punkt startowy. Agent FAQ: odpowiada na najczęstsze pytania klientów. Cennik, dostępność, procedury.

Speaker A

Agent onboardingowy: przeprowadza nowych pracowników przez pierwsze dni w firmie. Agent sprzedażowy: zbiera dane kontaktowe, kwalifikuje leady, ustawia spotkania.

Speaker A

Agent edukacyjny: tłumaczy materiał, odpowiada na pytania, testuje wiedzę. Agent informacyjny: podaje godziny otwarcia, statusy zamówienia, aktualne promocje.

Speaker A

A dziś zbudujemy agenta edukacyjnego. Kogoś, kto odpowie na każde pytanie o ElevenLabs - za mnie.

Speaker A

Moim głosem, 24 godziny na dobę. Dobry agent to nie jest tylko technologia. To zaprojektowane doświadczenie.

Speaker A

I tu mam dla ciebie prosty framework, cztery pytania, które dadzą ci fundament całego projektu.

Speaker A

Pytanie pierwsze, kto mówi? To jest persona agenta. Ma imię, styl, charakter. Jest formalny czy przyjazny? Zwięzły czy rozbudowany?

Speaker A

Ciepły? A może profesjonalny? Pytanie drugie, do kogo mówi? Kim jest twój odbiorca? Klient B2C czy B2B?

Speaker A

Nowy użytkownik czy stały klient? Student czy menadżer? Pytanie trzecie, po co ten agent istnieje?

Speaker A

Jedno zdanie: agent istnieje po to, żeby... I teraz uzupełnij. Jedno zdanie. Pytanie czwarte, co wyróżnia jego styl?

Speaker A

Coś, co sprawi, że rozmowa z tym agentem jest zapamiętywalna. Może humor, może prostota. Empatia, a może konkretność?

Speaker A

Przełóżmy to na naszego agenta. Kto mówi? Internista dźwięku. Ciepły, konkretny, z nutą humoru. Brzmi jak ktoś, kto naprawdę zna się na rzeczy i nie owija w bawełnę.

Speaker A

Do kogo? Do każdego, kto chce wiedzieć więcej o ElevenLabs, uczestnikach kursu, potencjalnego klienta, ciekawskiego.

Speaker A

Po co? Żeby odpowiadać na pytania o platformę, narzędzia, możliwości i zastosowania. Co wyróżnia styl? To mój głos. Moja osobowość, dostępna zawsze, nawet kiedy mnie nie ma.

Speaker A

Fundament mamy, zatem budujmy. Wchodzimy do dashboardu. Klikam "Agents". Potem "Create new agent". Wybieram "Blank".

Speaker A

Imię agenta: Internista dźwięku. Pierwsza konfiguracja: język i model. Wybieram język polski. Model głosowy: Flash.

Speaker A

Latencja w tym modelu to około 75 milisekund. Dla agenta głosowego to jest standard. Rozmowa musi być naturalna, bez niezręcznych pauz i ciszy.

Speaker A

"First message" - pierwsze słowa agenta. To jest pierwsze wrażenie. Ma przedstawić agenta i od razu zaprosić do rozmowy.

Speaker A

Internista dźwięku powie tak: "Cześć. Jak ci idą Umiejętności Jutra? Jeśli masz jakieś pytania o ElevenLabs, zapytaj mnie.

Speaker A

Słucham, co cię interesuje?" Widzisz to otwarte zaproszenie na końcu? Nie pytam: "Jak mogę pomóc?" To zbyt generyczne.

Speaker A

Zapraszam do konkretnej rozmowy. System Prompt to osobowość i granice agenta. To jest najważniejszy dokument całego projektu.

Speaker A

Mówi agentowi, kim jest, jak mówi, czego nie robi. Więc: "Nazywasz się internista dźwięku i jesteś głosowym asystentem edukacyjnym stworzonym przez Kamila Sołdackiego z ElevenLabs.

Speaker A

Twój styl jest ciepły, konkretny i przystępny. Tłumaczysz złożone rzeczy prostym językiem. Masz poczucie humoru, ale nie kosztem merytoryki.

Speaker A

Twoim zadaniem jest odpowiadanie na pytania dotyczące ElevenLabs, narzędzi, modeli, zastosowań, możliwości platformy. Korzystasz wyłącznie z wiedzy zawartej w swojej bazie wiedzy.

Speaker A

Jeśli pytanie wykracza poza ElevenLabs, grzecznie kierujesz rozmówcę do dokumentacji lub strony elevenlabs.io. Używaj tylko słownych zapisów dla wszystkich liczb, liczebników oraz wszelkich wartości liczbowych." I tu chcę się zatrzymać.

Speaker A

Bo to ostatnie zdanie to nie jest przypadkowy tip. To jest odpowiedź na jeden z największych problemów przy budowaniu agentów głosowych po polsku.

Speaker A

Normalizacja tekstu to proces zamiany form zapisanych: liczb, skrótów, symboli na ich naturalną, wymówioną postać. W angielskim "2" to "two" albo "second".

Speaker A

Dwie formy, proste. Po polsku liczba "2" może być wymówiona jako: dwa, dwóch, dwóm, dwoma, dwu, dwoje, dwójka. I to jeszcze nie wszystko.

Speaker A

Bo dochodzą konteksty gramatyczne, rodzaje i przypadki. Polski jest jednym z najtrudniejszych języków do normalizacji tekstu. I modele AI potrafią tu się boleśnie potknąć. Dlatego daję wam teraz sztuczkę, która pozwoli ominąć większość tych błędów.

Speaker A

Wystarczy wpisać to na końcu każdego System Promptu: "Wykonaj pełną normalizację tekstu do naturalnej formy mówionej. Wszystkie liczby, skróty, symbole, adresy e-mail, nazwy użytkowników, domeny i inne elementy niesłowne zapisuj wyłącznie słownie, dobierając formę zgodnie z kontekstem wypowiedzi oraz poprawną odmianę gramatyczną. Tak, aby całość brzmiała

Speaker A

naturalnie po polsku. Nie stosuj rozwinięć mechanicznych. Każdą formę dobieraj tak, by była poprawna fleksyjnie i naturalna w całym zdaniu".

Speaker A

Jeden akapit, ogromna różnica. Serio, zobaczysz. "Knowledge base" to miejsce, skąd agent czerpie wiedzę. Więc Internista dźwięku musi znać ElevenLabs lepiej niż ktokolwiek.

Speaker A

Daję dwa źródła, oba publiczne, oba zawsze aktualne. Pierwsze źródło to dokumentacja. Drugie źródło to nasz blog. Blog ElevenLabs.

Speaker A

Agent właśnie indeksuje oba źródła. I od tej chwili wie wszystko, co napisaliśmy publicznie. Teraz najważniejszy moment tej lekcji.

Speaker A

Agent głosowy to nie jest tylko głos. To połączenie dwóch rzeczy: mózg, brain, czyli po prostu model językowy, który myśli, rozumie i generuje odpowiedzi.

Speaker A

Głos, voice, to ElevenLabs, który zamienia te odpowiedzi w mowę. Dobry agent to właściwy brain plus właściwy voice.

Speaker A

Głos - mój Professional Voice Clone, wytrenowany w poprzedniej lekcji. To jest ten moment, gdzie dwie lekcje się spinają.

Speaker A

Głos nagrany w tygodniu drugim żyje teraz w agencie w tygodniu trzecim. Ale wybierzmy model LLM.

Speaker A

Nasz mózg. Wybierasz spośród Anthropic, Google, OpenAI i innych. Każdy model ma inną osobowość odpowiedzi, inny styl, inną wiedzę, inną długość, inne podejście.

Speaker A

Warto przetestować minimum dwa, zanim wybierzesz ten właściwy dla swojego agenta. I jedna ważna zasada, im większy i potężniejszy model, tym dłuższy czas odpowiedzi, czyli wyższa latencja.

Speaker A

W agencie głosowym to ma ogromne znaczenie. Rozmowa, w której agent myśli 3 sekundy przed odpowiedzią, przestaje być rozmową.

Speaker A

Dlatego dla agentów głosowych zazwyczaj szukamy balansu, wystarczająco mądry, ale wystarczająco szybki. Ja wybieram ten, który ma najkrótszy czas odpowiedzi.

Speaker A

Zobaczymy, czy tak mały i szybki model dobrze zadziała w moim agencie. Najwyżej później zmienię na inny.

Speaker A

I agent jest gotowy, tak, serio. Właśnie skończyliśmy robić agenta, który jest już gotowy do użycia.

Speaker A

Czas sprawdzić, czy działa. Potestować, po prostu z nim pogadać. "Cześć. Jak ci idą Umiejętności Jutra?

Speaker A

Jeśli masz jakieś pytania o ElevenLabs, zapytaj mnie. Słucham, co cię interesuje?" "Cz

Speaker A

Tworzysz głosy, klonujesz swój własny. Budujesz agentów. Dubbingujesz wideo w ponad 70 językach. Krótko mówiąc, jeśli coś ma brzmieć, my się tym zajmujemy." "Czy mogę sklonować swój głos za darmo?" "Technicznie tak.

Speaker A

Mamy konto darmowe i możesz zacząć. Ale uczciwie powiem, żeby klon naprawdę brzmiał jak ty, a nie jak ty nagrany kalkulatorem, czyli słabym mikrofonem, warto wejść w wyższy plan.

Speaker A

Darmowe konto to świetny start do testów. Produkcja to już inna rozmowa." "A czy możesz pozdrowić uczestników programu szkoleniowego Umiejętności Jutra AI?" "Oczywiście. Hej, Umiejętności Jutra!

Speaker A

Słuchajcie uważnie, bo właśnie rozmawiasz z dowodem na to, że to wszystko działa. Jestem agentem zbudowanym w czasie tej lekcji z głosem Kamila, z wiedzą o ElevenLabs.

Speaker A

I szczerze? Jestem trochę z siebie dumny." I to jest ten moment, w którym takich rozmów testowych z agentem powinniśmy odbyć dziesiątki, aby wyłapać wszelkie błędy i niedociągnięcia.

Speaker A

Iteracja należy do procesu. Po każdym takim teście, po każdej rozmowie, wracam do System Promptu i poprawiam to, co nie zadziałało. Za długie odpowiedzi? Dopisuję: Odpowiadaj maksymalnie dwa zdania.

Speaker A

Zły ton? Zmieniam opis stylu. Błędna odpowiedź? Aktualizuję knowledge base. Testuj, notuj, poprawiaj. Aż poczujesz, że to działa tak, jak chcesz. Zatem, zbudowałeś agenta?

Speaker A

Przetestowałeś go? Działa. I teraz chcę, żebyś przez chwilę zapomniał o moim agencie i zobaczył tę samą mechanikę w zupełnie innej skali.

Speaker A

Bo to, co właśnie zrobiliśmy, to jest fundament. A teraz pokażę ci, co można na tym fundamencie zbudować.

Speaker A

Trzy uderzenia: zasięg, moc, bezpieczeństwo. Zasięg, czyli gdzie ten agent może żyć. Ten sam agent, z tą samą konfiguracją, może być dostępny poprzez sześć kanałów, web, czyli widget na stronie, kilka linijek kodu HTML, klient klika, rozmawia.

Speaker A

Twilio, czyli natywna integracja. Importujesz swój numer telefonu, przypisujesz agenta i od tej chwili odbiera połączenia przychodzące i sam wykonuje wychodzące.

Speaker A

Zero zmian w istniejącej infrastrukturze. SIP Trunking. I to jest ten moment dla tych z was, którzy mają w firmie działający system telefoniczny, centralę, PBX. Nie musisz nic wymieniać.

Speaker A

Podpinasz ElevenAgents bezpośrednio do tego, co już masz. Agent wchodzi do waszej infrastruktury. Nie ona do agenta.

Speaker A

Genesys Vonage, Telnyx Plivo. Dla tych, którzy już mają contact center. Agent wchodzi w istniejące środowisko.

Speaker A

WhatsApp, dokładnie tak. Agent może być dostępny poprzez WhatsApp zarówno głosowo, jak i tekstowo. I tu chcę dodać coś, co zmieni perspektywę. Przez całą lekcję mówiłem o agencie, który odbiera, który czeka, który odpowiada, gdy ktoś napisze lub zadzwoni. Ale agent głosowy może też

Speaker A

działać odwrotnie, może sam dzwonić, sam inicjować rozmowę. Sam wykonać tysiąc połączeń, zanim ty wstaniesz od biurka i znajdziesz telefon.

Speaker A

Bo właśnie do tego służy Batch Calling. Agent sam wykonuje tysiące połączeń wychodzących z personalizacją per rozmówca. Kwalifikacja leadów, follow-upy, badania satysfakcji. W skali, której żaden zespół nie obsłuży.

Speaker A

Dobra, wiemy już, gdzie agent może żyć - web, telefon, WhatsApp, Batch Calling. Teraz drugie pytanie, co ten agent robi, kiedy już odbierze lub wykona połączenie?

Speaker A

Co dzieje się w środku tej rozmowy? I tu jest właśnie ta granica, która oddziela agenta głosowego od nagrywanego komunikatu z call center.

Speaker A

RAG, czyli agent, odpowiada wyłącznie z twojej bazy wiedzy, dokumentacji, katalogów produktów i tak dalej.

Speaker A

Baza jest automatycznie indeksowana przy każdej zmianie. Aktualizujesz dokument? Agent wie od razu. Tool calling.

Speaker A

Agent nie tylko mówi. Wykonuje akcje w czasie rozmowy. Fetchuje dane z CRM, tworzy ticket w Zendesk, rezerwuje termin w kalendarzu, wysyła dokument do podpisania przez Docusign, loguje zdarzenia w twoim systemie. Wszystko mid-conversation, w trakcie rozmowy, bez przerwy.

Speaker A

Custom Turn Taking, własny model ElevenLabs do wykrywania kolejności wypowiedzi. Nie zwykłe wykrywanie ciszy. Agent rozumie, kiedy rozmówca myśli, a kiedy naprawdę skończył mówić, to jest ten element, który sprawia, że rozmowa brzmi naturalnie, a nie jak automat.

Speaker A

Visual Workflow Builder, budujesz złożone drzewa rozmów bez pisania kodu. Drag and drop. Definiujesz ścieżki, warunki, eskalacje, wszystko wizualnie.

Speaker A

Multi-agent handoff. I tu chcę się zatrzymać, bo to jest jedna z ważniejszych funkcji z perspektywy wdrożenia w prawdziwej organizacji.

Speaker A

Agent może przekazać rozmowę płynnie, bez rozłączania, w trzech sytuacjach. Po pierwsze, zmiana tematu. Klient zaczął od pytania o fakturę, a teraz chce rozmawiać o reklamacji. Pierwszy agent przekazuje do drugiego, który ma inną wiedzę i inny System Prompt.

Speaker A

Po drugie, eskalacja do innego agenta. Masz agenta informacyjnego i agenta sprzedażowego. Klient jest gotowy kupić, przekazujesz go dalej, bez przerywania rozmowy, bez grania na czekanie i czekania, czekania, czekania...

Speaker A

czekania, aż ktoś odbierze. Po trzecie, i to jest najważniejsze, eskalacja do człowieka. Agent rozpoznaje sytuację, w której nie powinien dalej działać sam. Klient jest sfrustrowany.

Speaker A

Sprawa jest zbyt złożona. Agent nie udaje, że "da radę". Przekazuje do żywego konsultanta. I robi to płynnie, klient nie słyszy: "Proszę czekać, łączę." Klient po prostu nagle rozmawia z człowiekiem, to jest ten element, który sprawia, że AI w obsłudze klienta nie musi być wyborem

Speaker A

między agent albo człowiek. Może być agent i człowiek, kiedy trzeba. Do tego Salesforce, HubSpot, Zendesk, ServiceNow, Stripe, Docusign, Zapier i osiem tysięcy aplikacji dalej.

Speaker A

MCP, pełne API, SDK, w Pythonie, TypeScript. Ponad 400 gotowych integracji. I własne, jeśli potrzebujesz czegoś specyficznego.

Speaker A

Porozmawiajmy o bezpieczeństwie. Dla tych, którzy wracają z tą lekcją do działu IT. Wiem, że padnie to pytanie. Dlatego mówię to teraz, żebyśmy mieli odpowiedź gotową.

Speaker A

ElevenAgents ma pełny stack certyfikatów. Próbowałem kilka razy je wymienić, ale szkoda łamać język. Widzicie je tutaj wypisane.

Speaker A

Dostarczamy dane szyfrowane w tranzycie i w spoczynku. Możesz wybrać region: Unia Europejska, Stany Zjednoczone lub Indie. Zero Retention Mode, żadne dane z rozmowy nigdzie nie trafiają, nic nie jest przechowywane.

Speaker A

VPC Deployment dla środowisk wymagających izolacji sieciowej. Static IP dla SAP, dla korporacji z firewall allowlistingiem.

Speaker A

Role-Based Access Control, granularne uprawnienia dla zespołów. Kto co widzi? Kto może edytować? A kto tylko przegląda?

Speaker A

Bo to nie jest startup z ambicjami. To jest infrastruktura gotowa na enterprise od pierwszego dnia.

Speaker A

A proof of concept możesz zbudować dziś. Produkcję wdrożyć za tydzień. Czas start. Obiecałem niespodziankę na początku tej lekcji.

Speaker A

Internista dźwięku, agent, którego właśnie zbudowałem na waszych oczach, jest teraz wasz. Zeskanujcie kod, wejdźcie na stronę i porozmawiajcie ze mną. To znaczy, z moim agentem.

Speaker A

Jeśli czegoś nie dopowiedziałem, on na pewno wam wszystko wyjaśni i rozwieje wszelkie wątpliwości. To jest agent zbudowany dokładnie z tą mechaniką, którą właśnie wam pokazałem.

Speaker A

Z moim głosem, z wiedzą o ElevenLabs. Dostępny dla każdego z was, teraz, za tydzień, za rok.

Speaker A

To jest dokładnie ten agent, którego zbudowaliśmy przez ostatnie kilka minut. A teraz zatrzymaj się na chwilę.

Speaker A

Bo to, co właśnie opisałem, agent z dokumentacją, z wiedzą, z głosem, to jest dopiero początek tego, do czego można to wszystko zastosować.

Speaker A

Wiesz, że możesz porozmawiać z umową kredytową? Zamiast czytać 20 stron małym drukiem, pytasz agenta: "Co się stanie, jeśli spóźnię się z ratą?" I dostajesz odpowiedź.

Speaker A

Możesz porozmawiać z podręcznikiem swojego dziecka. Wieczór przed sprawdzianem z historii? Dziecko pyta, agent tłumaczy, powtarza, sprawdza, czy rozumie.

Speaker A

Możesz stworzyć postać, fikcyjnego mentora, bohatera swojej marki, który ma imię, osobowość i styl. To jest dokładnie ta granica, o której mówiłem na moim wystąpieniu TEDx. Jeśli jeszcze nie widziałeś tego wystąpienia, znajdziesz je na YouTube, a jeśli widziałeś, wróć

Speaker A

i zostaw komentarz. Serio, czytam te komentarze. Podsumujmy całą ścieżkę, którą razem przeszliśmy. Zdefiniowałeś problem i use case.

Speaker A

Jedno zadanie, jeden odbiorca. Odpowiedziałeś na cztery pytania projektowe: kto, do kogo, po co, jaki styl.

Speaker A

Zbudowałeś agenta krok po kroku, First Message, System Prompt, knowledge base, głos, model, LLM. Przetestowałeś na żywo i wiesz, jak iterować.

Speaker A

Wiesz, jak wdrożyć i z czym połączyć kanały integracje, bezpieczeństwo. Pora na twoje zadanie końcowe.

Speaker A

Wybierz jeden konkretny proces lub problem w swojej pracy lub firmie. Określ jednego odbiorcę. Odpowiedz na cztery pytania projektowe: kto mówi, do kogo, po co, jaki styl.

Speaker A

Napisz szkic First Message. Napisz szkic System Promptu. Oraz opcjonalnie, jeśli wdrażasz w organizacji, zanotuj jedno pytanie, które czujesz, że dostaniesz od IT lub prawników.

Speaker A

I na sam koniec myśl, którą chcę, żebyś zabrał z tej lekcji. Agent głosowy nie zaczyna się od technologii.

Speaker A

Zaczyna się od dobrze zaprojektowanego doświadczenia użytkownika. To nie jest tylko dobranie głosu i podpięcie bazy wiedzy.

Speaker A

Trzeba zaprojektować całe zachowanie, rytm interakcji, możliwe warianty rozmowy i reakcje na dziesiątki małych sytuacji, których na początku nawet nie widać.

Speaker A

W praktyce trzeba być trochę reżyserem, trochę scenografem, trochę scenarzystą, trzeba myśleć o każdym detalu.

Speaker A

Wiedzieć, po co on tam jest. Mieć ciekawość i smak, żeby ocenić nie tylko to, czy coś dobrze brzmi, ale czy naprawdę działa. Technologia, modele, latencja, głos to narzędzia.

Speaker A

Projekt: kto mówi, do kogo, po co, jak - to fundament. Zacznij od fundamentu. Ostatnia rzecz. I mówię to do tych, którzy wychodzą stąd z konkretnym planem w głowie.

Speaker A

ElevenLabs zmienia się szybciej niż większość platform technologicznych. Nowe modele, nowe integracje, nowe możliwości. Dosłownie co kilka dni. Dlatego nie czekaj na idealny moment, zbuduj dziś. Nawet jeśli jest niedoskonały.

Speaker A

Bo ten, kto zacznie dziś, za miesiąc będzie już o wersję do przodu od tego, kto czeka.

Speaker A

Śledź dokumentację, obserwuj nasz kanał YouTube i bądź pierwszy. Bo w AI pierwszeństwo ma wartość.

Speaker A

Trzymaj się ciepło i do zobaczenia tam, gdzie głos spotyka się z technologią.

Topics:agent głosowyElevenLabsAIsztuczna inteligencjamodel językowynormalizacja tekstupersonalizacja głosubudowa agentaPolski język naturalnyvoice assistant

Frequently Asked Questions

Czym różni się agent głosowy od tradycyjnego systemu IVR?

Agent głosowy to inteligentny system, który rozumie intencje użytkownika, generuje odpowiedzi i prowadzi rozmowę w czasie rzeczywistym, podczas gdy IVR to nagrany komunikat z prostymi opcjami wyboru.

Dlaczego ważne jest, aby agent głosowy miał jedno konkretne zadanie?

Agent skupiony na jednym zadaniu jest bardziej skuteczny, szybki i łatwy do testowania, natomiast agent próbujący robić wszystko często nie spełnia dobrze żadnej funkcji.

Jak rozwiązano problem normalizacji tekstu w języku polskim w agencie głosowym?

W System Prompcie zastosowano instrukcję, która nakazuje pełną normalizację tekstu do naturalnej formy mówionej, uwzględniając poprawną odmianę gramatyczną i kontekst, co znacznie poprawia naturalność wypowiedzi.

Get More with the Söz AI App

Transcribe recordings, audio files, and YouTube videos — with AI summaries, speaker detection, and unlimited transcriptions.

App Store Google Play

Or transcribe another YouTube video here →