Cykl życia projektu AI: Znajdź dane

Omówienie kluczowego etapu projektu AI – przygotowania i oznaczania danych, ich jakości oraz współpracy zespołów dla skutecznego uczenia maszynowego.

Ask about this video. Answers come from its transcript only — with the timestamp, so you can check them.

Generated from the transcript and can be wrong — check the timestamp.

Key Takeaways

Dane są fundamentem każdego projektu AI – bez odpowiednich danych model nie zadziała skutecznie.
Jakość danych (relewantność, kompletność, opisanie, zróżnicowanie) decyduje o sukcesie modelu.
Współpraca między zespołem ML a ekspertami biznesowymi jest kluczowa już na etapie przygotowania danych.
Oznaczanie danych powinno być celowe i skupione na cechach mających realne znaczenie biznesowe.
Proces oznaczania danych jest dynamiczny i wymaga ciągłej adaptacji do zmieniających się potrzeb.

What the video covers

Przygotowanie danych to najważniejszy krok we wdrażaniu AI, obejmujący zbiór treningowy i testowy.
Modele uczą się na podstawie danych wejściowych (features) i etykiet (labels), które muszą być relewantne i kompletne.
Jakość danych wpływa na skuteczność modelu – dane muszą być opisane, kompletne, zróżnicowane i reprezentatywne.
Przykład banku pokazuje, jak model przewiduje decyzję klienta o wzięciu kredytu na podstawie danych osobowych.
Ważna jest współpraca zespołu machine learning z ekspertami biznesowymi i UX już na etapie definiowania danych treningowych.
Oznaczanie danych (labeling) powinno mieć sens biznesowy i skupiać się na cechach istotnych dla problemu.
Przykład CAPTCHA pokazuje crowdsourcing jako efektywną metodę oznaczania danych.
Różne podejścia do oznaczania danych: klasyfikacja podstawowa, oznaczenie cech szczegółowych, brak oznaczeń i wyzwania z tym związane.
Oznaczanie danych to proces ciągły, który ewoluuje wraz z potrzebami biznesu i zmieniającymi się wymaganiami.
Praktyczne podejście do oznaczania danych pozwala na lepsze wykorzystanie AI w biznesie, np. w e-commerce czy sklepie zoologicznym.

Dlaczego przygotowanie danych jest tak ważne w projektach AI?

Przygotowanie danych jest kluczowe, ponieważ modele uczą się na podstawie danych treningowych i testowych. Jakość, kompletność i relewantność danych wpływają bezpośrednio na skuteczność i trafność predykcji modelu.

Co to są etykiety (labels) i dlaczego są potrzebne?

Etykiety to oznaczenia danych, które wskazują, co dany przykład reprezentuje (np. czy klient wziął kredyt). Są niezbędne, aby model mógł nauczyć się rozpoznawać wzorce i podejmować decyzje na podstawie danych.

Jakie są najczęstsze błędy przy oznaczaniu danych?

Częstym błędem jest oznaczanie wszystkich możliwych cech bez selekcji tych istotnych dla biznesu, co prowadzi do gorszych wyników. Ważne jest skupienie się na cechach, które mają realny wpływ na decyzje i wartość biznesową.

Full Transcript — Download SRT & Markdown

Speaker A

Zejdźmy z poziomu teorii. Kiedy już potwierdzicie, że wasz projekt spełnia wszystkie te kryteria, co dalej?

Speaker A

To prowadzi nas do najważniejszego kroku we wdrażaniu AI: przygotowania danych. Tutaj zatrzymajmy się na chwilę i odpowiedzmy sobie na pytanie, w jaki sposób uczą się modele uczenia maszynowego?

Speaker A

Wyobraźcie sobie, że jesteście nauczycielem, który ma przygotować ucznia do egzaminu końcowego. Macie dwa kluczowe narzędzia. Pierwsze to tak zwany zbiór treningowy, to jak stare egzaminy z poprzednich lat, na których uczycie ucznia. Na ich podstawie uczeń, w naszym przypadku model, uczy się rozpoznawać

Speaker A

wzorce i podejmować decyzje. A drugi to zbiór testowy, to jak próbny egzamin, którego uczeń wcześniej nie widział.

Speaker A

Używacie go, żeby sprawdzić, czy faktycznie się nauczył, czy tylko zapamiętał odpowiedzi. Pozwólcie, że pokażę to na konkretnym przykładzie.

Speaker A

Załóżmy, że jesteśmy bankiem i chcemy stworzyć model przewidujący, czy klient weźmie kredyt. Spójrzcie na tabelę. W kolumnach A mamy dane wejściowe.

Speaker A

To wszystkie informacje o kliencie - jego wiek, dochód roczny, stan cywilny, historia kredytowa. W kolumnie B mamy to, co chcemy przewidzieć: czy klient faktycznie wziął kredyt, jedynka, czy nie, zero. To są nasze etykiety, czyli tak zwane labels.

Speaker A

Model uczy się znajdować zależności między danymi w kolumnach A a wynikiem w kolumnie B. Na przykład może odkryć, że osoby z wysokim dochodem i pozytywną historią kredytową częściej biorą kredyty.

Speaker A

Później, gdy przyjdzie nowy klient, model dostanie tylko dane z kolumn A i na ich podstawie będzie musiał przewidzieć wartość B, czy ten klient prawdopodobnie weźmie kredyt.

Speaker A

Na drugim slajdzie widzicie te same dane, ale bez kolumny B. Dokładnie tak, jak model widzi nowego klienta.

Speaker A

Bazując na wzorcach, których nauczył się z danych treningowych, musi przewidzieć brakującą wartość. To dlatego jakość i reprezentatywność danych treningowych jest tak kluczowa. Jeśli na przykład w danych treningowych mielibyśmy same młode osoby, model mógłby się nauczyć błędnych wzorców dotyczących starszych klientów.

Speaker A

Dane to absolutna podstawa każdego projektu AI. Możecie mieć najlepszy zespół i nieograniczony budżet, ale bez odpowiednich danych daleko nie zajedziecie.

Speaker A

Jest kilka kluczowych kryteriów, które muszą spełniać wasze dane. Muszą być relewantne, czyli faktycznie związane z problemem, który chcecie rozwiązać. Często widzę, jak firmy próbują budować systemy rekomendacji w oparciu o dane z logów systemowych zamiast faktycznych zachowań użytkowników. To jak próba przewidzenia,

Speaker A

co klient kupi na podstawie tego, ile razy kliknął w przycisk menu. Możecie znaleźć jakieś korelacje, ale prawdopodobnie będą bez znaczenia biznesowego.

Speaker A

Dane muszą być też opisane, czyli olabelkowane, czyli wiemy, co te dane właściwie znaczą. Wyobraźcie sobie, że macie milion zdjęć produktów, ale nie macie informacji, które przedstawiają buty, a które kurtki. Model może się nauczyć rozpoznawać wzory, ale bez tych etykiet

Speaker A

nie będzie wiedział, co te wzory oznaczają. To jak próba nauczenia się języka obcego, tylko słuchając go, bez tłumaczenia, co poszczególne słowa znaczą.

Speaker A

Dane muszą być kompletne, czyli wszystkie potrzebne informacje muszą być dostępne i spójne. Częsty problem to brakujące wartości lub niespójne formaty.

Speaker A

Na przykład część użytkowników ma wpisany wiek, a część nie, albo daty są raz w formacie europejskim, a raz w amerykańskim. Z takimi danymi model albo się nie nauczy, albo nauczy się błędnych wzorców.

Speaker A

I wreszcie muszą być zróżnicowane, czyli reprezentujące różne przypadki i scenariusze. Jeśli trenujecie model rozpoznawania spamu tylko na przykładach ze starego typu oszustw, nie poradzi sobie z nowymi technikami. Potrzebujecie danych pokazujących różne sytuacje, edge case'y, wyjątki.

Speaker A

To jak uczenie się jazdy samochodem. Nie wystarczy poćwiczyć na pustym parkingu, trzeba też doświadczyć różnych sytuacji drogowych.

Speaker A

Zacznijmy od relewantności. Wyobraźcie sobie, że budujecie model do oceny jakości zdjęć produktowych w e-commerce.

Speaker A

Patrząc na surowe dane, możecie osiągnąć dokładność około 45%. Ale gdy skupicie się tylko na kluczowych cechach wskazanych przez ekspertów, na przykład czystość tła i ostrość głównego obiektu, dokładność skacze do 85%.

Speaker A

To dlatego, że przy budowaniu zbiorów treningowych kluczowe jest pytanie, jakie dane naprawdę mają znaczenie.

Speaker A

I tu warto sięgnąć po wiedzę ekspercką. Po pierwsze, eksperci dziedzinowi, co według nich wpływa na skuteczność sprzedaży? Na przykład, czy białe tło faktycznie zwiększa konwersję? Po drugie, UX researcherzy i obsługa klienta. Jakie problemy zgłaszają nasi użytkownicy? Może okazać się,

Speaker A

że liczba klików w ofertę jest mniej istotna niż to, czy użytkownik widzi wyraźnie detale produktu. I po trzecie, trendy i badania naukowe. Czy są jakieś sprawdzone wzorce, które możemy wykorzystać? Często popełniany błąd to próba wpakowania do modelu wszystkiego, co się da, licząc,

Speaker A

że AI samo się nauczy. To jak próba nauczenia kogoś gotowania, dając mu książkę kucharską plus podręcznik do fizyki kwantowej. Więcej danych nie zawsze znaczy lepiej, a lepiej skupić się na mniejszej liczbie naprawdę istotnych sygnałów, niż zbierać setki metryk o małym znaczeniu.

Speaker A

To nie tylko oszczędza czas i zasoby, ale często prowadzi do lepszych wyników. W praktyce oznacza to ścisłą współpracę między zespołem machine learning a ekspertami biznesowymi już na etapie definiowania danych treningowych.

Speaker A

Pozwólcie, że opowiem wam o jednym z najsprytniejszych rozwiązań w historii oznaczania danych. Pamiętacie CAPTCHA? Te irytujące testy, gdzie klikacie w światła uliczne albo wpisujecie pokręcone teksty?

Speaker A

Za każdym razem, gdy je rozwiązujecie, trenujecie modele AI Google. Od 2011 roku wykorzystali to do zdigitalizowania całego archiwum Google Books i 13 milionów artykułów New York Times, sięgających aż do 1851 roku. To jest crowdsourcing na genialnym poziomie. Ale dochodzimy do sedna sprawy.

Speaker A

Opisywanie danych to nie jest tylko kwestia tego, żeby ludzie coś oznaczali. Chodzi o to, żeby oznaczenia faktycznie miały znaczenie dla waszego problemu biznesowego.

Speaker A

Pokażę wam, o co mi chodzi. Spójrzmy na prosty przykład, który świetnie pokazuje różne podejścia do oznaczania danych. Mamy obrazki kotów i psów.

Speaker A

Wydawałoby się, prosta sprawa. Ale zobaczcie, jak różnie możemy to zrobić. Pierwszy sposób to podstawowa klasyfikacja, to jest pies, to jest kot.

Speaker A

Proste, prawda? Ale często mało użyteczne biznesowo. To jak mówienie: to jest produkt, a to jest inny produkt.

Speaker A

Technicznie prawdziwe, ale co dalej? Drugi sposób to oznaczenie konkretnych cech. 18 funtów, 14 funtów, 12 funtów, 9 funtów.

Speaker A

Teraz nasz model nie tylko wie, co widzi, ale ma konkretne dane metryczne, to jak w e-commerce. Nie wystarczy wiedzieć, że coś jest bluzką, trzeba znać rozmiar, materiał, styl.

Speaker A

A co z trzecią sytuacją, gdy nie mamy żadnych oznaczeń? To jest rzeczywistość większości firm.

Speaker A

Masa nieopisanych danych. I tu właśnie wchodzi sztuka efektywnego oznaczania. Zamiast próbować oznaczać wszystko, zadajcie sobie pytanie: jakie cechy naprawdę wpływają na decyzje waszych klientów?

Speaker A

W przypadku sklepu zoologicznego może to być nie tyle gatunek zwierzęcia, co jego rozmiar, bo to determinuje, jakie akcesoria klient powinien kupić.

Speaker A

To jest właśnie różnica między teoretycznym a praktycznym podejściem do AI. Teoretycznie możemy oznaczać wszystkie możliwe cechy. Praktycznie skupiamy się tylko na tych, które przekładają się na konkretne decyzje zakupowe i wartość biznesową.

Speaker A

I jeszcze jedno. Zauważcie, że oznaczanie danych to nie jednorazowa akcja. To ciągły proces, gdzie wasze oznaczenia ewoluują wraz z potrzebami biznesu.

Speaker A

Dziś ważny może być rozmiar zwierzęcia, jutro jego wiek, a pojutrze preferencje żywieniowe. Elastyczność w podejściu do oznaczania danych jest kluczowa dla długoterminowego sukcesu.

Speaker A

Ten przykład świetnie pokazuje praktyczne podejście do oznaczania danych. To, co widzicie, to narzędzie do oznaczania treści w kontekście kosmetyków i pielęgnacji skóry. Zauważcie, jak różne elementy są oznaczane.

Speaker A

Marki są wyróżnione na niebiesko: La Mer, Renee Rouleau, co pozwala modelowi uczyć się rozpoznawać nazwy marek.

Speaker A

Nazwy produktów są zaznaczone na zielono: The Essential Skincare Collection, Skin Type 3. To pomaga w identyfikacji konkretnych linii produktowych.

Speaker A

Po prawej stronie widzicie kategorie i relacje pomiędzy produktami. To właśnie struktura, której uczy się model. Na przykład Product to Brand pokazuje rozwiązanie między produktem a marką.

Speaker A

Co ciekawe, ten system nie tylko oznacza oczywiste elementy jak nazwy, ale też buduje relacje pomiędzy nimi.

Speaker A

To kluczowe w e-commerce, gdzie często chcemy wiedzieć nie tylko, co widzimy, ale jak te elementy są ze sobą powiązane. To jest właśnie różnica miedzy prostym tagowaniem a inteligentnym oznaczaniem danych.

Speaker A

Nie tylko opisujemy to, co widzimy, ale też budujemy kontekst i relacje, które później mogą być wykorzystane w rekomendacjach produktowych czy wyszukiwaniu.

Speaker A

Współczesne podejście do oznaczania danych opiera się na zasadzie pętli zwrotnej. Działa to tak, zaczynacie od jakichś oznaczonych danych, budujecie model, a potem, i to jest kluczowe, identyfikujecie, gdzie wasz model ma problemy.

Speaker A

Te trudne przypadki to jest wasza kopalnia złota. To właśnie na nich powinniście skupić wysiłki przy oznaczaniu. Oto praktyczny framework, który wielokrotnie sprawdził się w praktyce. Po pierwsze, zaczyna się od oznaczeń o wysokiej pewności, przypadków, gdzie klasyfikacja jest absolutnie jasna.

Speaker A

Po drugie, używa się modelu do zidentyfikowania niepewnych przypadków. To są sytuacje, gdzie wasza AI nie jest pewna, co widzi.

Speaker A

Po trzecie, i to jest kluczowe, zdobądźcie ekspercką opinię właśnie dla tych trudnych przypadków. Nie dla wszystkiego, tylko dla tych skrajnych sytuacji, gdzie model ma problemy.

Speaker A

I wreszcie, ciągle powtarzajcie ten proces. Wasz model się poprawia, identyfikuje nowe przypadki i cykl trwa dalej.

Speaker A

Kompletność danych. Spójrzmy na dwa zestawy danych. Pierwszy, uporządkowany. Każda kolumna zawiera pełne informacje, wszystko jest jednolite, brak pustych wartości.

Speaker A

Drugi, bałagan. Brakuje kluczowych danych, w niektórych miejscach są dziwne znaki, w innych niepoprawne wartości. I teraz kluczowe pytanie.

Speaker A

Który zestaw sprawi, że model AI podejmie lepsze decyzje? Odpowiedź jest oczywista. Bez kompletnych i poprawnych danych AI jest jak kucharz, który próbuje ugotować obiad bez połowy składników. Może coś z tego wyjdzie, ale na pewno nie to, czego oczekiwaliśmy.

Speaker A

Jeśli model AI opiera się na niekompletnych danych, to jego decyzje mogą być po prostu błędne.

Speaker A

A błędne decyzje w banku? Dla firmy może to oznaczać kosztowne straty. Okej, czyli wiemy, że kompletność danych jest kluczowa.

Speaker A

Ale co z tym możemy zrobić? Po pierwsze, walidacja na wejściu. Sprawdzajmy dane już w momencie ich zbierania.

Speaker A

Po drugie, standaryzacja. Nie może być tak, że w jednej kolumnie mamy "kawaler", a w drugiej "kaw" z kropką. AI nie wie, że to to samo.

Speaker A

Po trzecie, automatyczna detekcja anomalii. Systemy powinny wychwytywać brakujące lub dziwne wartości. I wreszcie świadomość. Jeśli ludzie w zespole wiedzą, że złe dane oznaczają złe decyzje, to będą bardziej na nie uważać.

Speaker A

Przejdźmy teraz do zróżnicowania danych. Wyobraźcie sobie, że budujemy model AI do rozpoznawania obrazów i chcemy, żeby potrafił identyfikować ludzi w różnych kontekstach.

Speaker A

Trenujemy go na dużym zbiorze zdjęć. Po jakimś czasie model zaczyna działać i dostajemy pierwsze wyniki.

Speaker A

Patrzymy na klasyfikację i widzimy coś dziwnego. Zdjęcia kobiet w kuchni są oznaczane jako kobieta.

Speaker A

Zdjęcia mężczyzn w kuchni również są oznaczane jako kobieta. Co się stało? AI nie myśli tak jak my, nie rozumie kontekstu, działa na podstawie wzorców danych.

Speaker A

A jeśli w zbiorze treningowym większość zdjęć przedstawia kobiety gotujące, to model uczy się, że osoba gotująca to najprawdopodobniej kobieta.

Speaker A

To klasyczny przykład błędu poznawczego w danych, który AI tylko wzmacnia. Dokładnie to widzimy na tym przykładzie.

Speaker A

Jeśli w zbiorze treningowym większość przykładów osób w kuchni to kobiety, model będzie zawsze przypisywał kobietę, nawet jeśli na zdjęciu ewidentnie gotuje mężczyzna.

Speaker A

Model nie ma złych intencji, on tylko powiela to, co zostało mu dostarczone. I to pokazuje, dlaczego zróżnicowanie danych jest kluczowe. Jeśli trenujemy AI na jednostronnych, niepełnych lub stronniczych danych, model nie tylko powieli te błędy, ale wręcz je wzmocni.

Speaker A

Może prowadzić do dyskryminacji, błędnych decyzji i w skrajnych przypadkach realnych zagrożeń dla ludzi. Jak temu zapobiegać? Po pierwsze, zespół pracujący nad danymi musi sprawdzać, czy reprezentowane są różne grupy użytkowników. Po drugie, warto testować model na danych, które nie były używane do jego treningu,

Speaker A

żeby wykryć potencjalne błędy. Po trzecie, AI nie może być jedynym decydentem w sprawach wysokiego ryzyka.

Speaker A

Modele muszą być nadzorowane i stale aktualizowane, bo jeśli raz nauczą się błędnych wzorców, będą je powielać bez końca.

Speaker A

Zróżnicowanie danych to nie techniczny szczegół, to fundament tworzenia odpowiedzialnych systemów AI. Jeśli zapomnimy o tej zasadzie, możemy stworzyć model, który będzie podejmować logiczne, ale katastrofalnie błędne decyzje.

Speaker A

Zanim zaczniemy trenować model, warto zadać sobie jedno kluczowe pytanie. Czy nasze dane w ogóle się do tego nadają? To że mamy dużą ilość informacji, jeszcze nic nie znaczy, ważne jest, żeby dane spełniały cztery podstawowe kryteria. Po pierwsze, relewantność.

Speaker A

Czy te dane rzeczywiście odnoszą się do problemu, który chcemy rozwiązać? Możemy mieć tony informacji, ale jeśli nie są istotne dla naszego modelu, to są po prostu bezużyteczne. Po drugie, opisanie.

Speaker A

Jeśli mamy zestaw danych, ale nie wiemy, co oznaczają poszczególne kolumny, to mamy duży problem.

Speaker A

AI nie zrozumie kontekstu, jeśli nie dostarczymy mu dobrze opisanych, jasno oznaczonych danych. Po trzecie, kompletność. Braki w danych mogą sprawić, że model będzie zgadywał, a jeśli model zgaduje, to jego decyzje są losowe. A jeśli jego decyzje są losowe,

Speaker A

to po co właściwie nam AI? I po czwarte, zróżnicowanie. Jeśli model trenujemy tylko na jednej grupie użytkowników, to nie możemy oczekiwać, że będzie działał dobrze dla wszystkich. Stronnicze dane równa się stronnicze AI.

Speaker A

Jeśli nie jesteśmy pewni, czy nasze dane spełniają te kryteria, najlepsza rada jest prosta. Porozmawiajmy z człowiekiem od danych.

Speaker A

Zespół Data Science pomoże nam przeanalizować dane, sprawdzić ich jakość i ewentualnie je ulepszyć. I jeszcze jedno. Im szybciej zaczniemy rozmawiać o danych, tym lepiej. Nie warto czekać do momentu, aż coś pójdzie nie tak, bo jeśli model dostanie złe dane,

Speaker A

to na pewno da nam złe wyniki. A potem zostaje nam tylko pytanie, co poszło nie tak?

Topics:sztuczna inteligencjauczenie maszynoweprzygotowanie danychoznaczanie danychjakość danychprojekty AIdane treningowecrowdsourcingetykiety danychwspółpraca zespołów

Get More with the SozAI App

Transcribe recordings, audio files, and YouTube videos — with AI summaries, speaker detection, and unlimited transcriptions.

App Store Google Play

Or transcribe another YouTube video here →

Free tools: TXT to SRT · SRT Validator · Merge SRT · Subtitle to Text · All tools