Polski Bielik obnaża ograniczenia ChatGPT || Remigiusz … — Transcript

Remigiusz Kinas omawia zalety polskiego modelu językowego Bielik w porównaniu do ChatGPT, podkreślając bezpieczeństwo i dostosowanie do języka polskiego.

Key Takeaways

  • Bielik to polski model językowy lepiej dostosowany do języka polskiego niż ChatGPT.
  • Model można instalować lokalnie, co zapewnia większe bezpieczeństwo danych.
  • Bielik jest darmowy i oferuje brak limitów tokenów oraz szybkie działanie.
  • Europejskie i polskie inicjatywy AI są ważne dla niezależności technologicznej.
  • Sztuczna inteligencja ma szerokie zastosowanie, m.in. w biotechnologii.

Summary

  • Rozmowa z Remigiuszem Kinasem, ekspertem AI i współtwórcą polskiego modelu językowego Bielik.
  • Omówienie różnic między Bielikiem a ChatGPT, zwłaszcza w kontekście języka polskiego.
  • Bielik jest modelem open source, dostosowanym do polskiego języka i lokalnych danych.
  • Model można instalować lokalnie, co zwiększa bezpieczeństwo i pozwala na przetwarzanie wrażliwych danych bez wysyłania ich do chmury.
  • Bielik oferuje szybkie odpowiedzi, brak limitów tokenów i możliwość fine tuningu.
  • Dyskusja o ograniczeniach dużych modeli językowych trenowanych głównie na danych anglojęzycznych.
  • Wskazanie na potrzebę rozwoju europejskich i polskich rozwiązań AI zamiast polegania wyłącznie na zagranicznych produktach.
  • Podkreślenie, że Bielik jest darmowy, a koszty wiążą się jedynie z infrastrukturą.
  • Rozmowa o zastosowaniu AI w biotechnologii i roli Remigiusza Kinasa w firmie Inenic AI.
  • Inicjatywa Bielik ma charakter oddolny i patriotyczny, wspierana przez stowarzyszenie Spichlerz.

Full Transcript — Download SRT & Markdown

00:00
Speaker A
Pada często to pytanie, po co nam Bielik, skoro mamy chata GPT?
00:00
Speaker B
Bezpieczeństwo, szybkość odpowiedzi, dostosowanie do języka polskiego.
00:00
Speaker C
Jest darmowy
00:00
Speaker D
i jest darmowy. Wydaje mi się, że my tego nie wykorzystujemy i w ogóle Europa tego nie wykorzystuje, bo jeżeli patrzymy na rynek chiński, to mamy po prostu fabryki, to są kombinaty, które produkują sztuczną inteligencję. W dolinie Krzymowej jeszcze inwestorzy płacą
00:00
Speaker E
yyy za AGI, za wizję AGI, więc trzeba mówić o AGI. Czy język polski jest lepszy w jakimś sensie do trenowania sztucznej inteligencji niż angielski?
00:31
Speaker F
No odpowiedź brzmi nie. Dlaczego y sztuczna inteligencja rozmawiając ze sobą ma rozmawiać w języku ludzkim? Może rozmawiać zupełnie na innym poziomie. Bardzo trudno nam wyjaśnić dlaczego model tak myśli. I drugie pytanie, czy to co on myśli to jest rzeczywiście to czym on o czym on myśli? Czy nie ma ukrytych intencji intencji w środku?
01:04
Speaker F
Dzień dobry. Patrycjusz Wżga. Witam i zapraszam na kolejny odcinek programu Didasalia. Serdecznie państwa zachęcam i proszę, by subskrybować ten kanał, jeśli państwo jeszcze tego nie uczynili, a także by skomentować tę rozmowę, by ją polubić. po to, by tego rodzaju bardzo wartościowe, jak sądzę, treści, ta rozmowa niezwykle ciekawa, wiem to z góry, trafiały do jak najszerszego grona odbiorców, by się tą wiedzą, z którą dzisiaj gość do nas przyszedł szeroko dzielić. I zachęcam i
01:32
Speaker F
zapraszam państwa także na drugi kanał Horyzonty. W horyzontach dominują tematy gospodarcze, ale dzisiaj sztuczna inteligencja w ujęciu y najbardziej konkretnym chyba z dotychczasowych, bo mam przed sobą, proszę państwa, człowieka, który po prostu robi, który po prostu to robi, który siedzi przy komputerze i tworzy sztuczną inteligencję. Remigiusz Kinas. Dzień dobry. Witaj, Remku.
01:32
Speaker A
Dzień dobry.
01:32
Speaker B
Remek pracuje w biotechnologicznej firmie Inenic AI. Jesteś tam głównym naukowcem, głównym badaczem sztucznej inteligencji w tej firmie. No można powiedzieć, że jestem osobą, która zajmuje się researchem iowym, czyli nie jestem biotechnologiem, nie jestem biologiem, nie jestem bioinformatykiem.
01:57
Speaker C
Z wykształceniu jesteś kim?
01:57
Speaker D
Ja jestem informatykiem. Informatykiem. Politechnika Poznańska.
01:57
Speaker E
Informat. Ale akurat twoje nazwisko Państwo być może kojarzą. Natomiast raczej i niekoniecznie z biotechnologią, o której bardzo bym chciał w tej rozmowie pomówić, bo bo to jest niezwykle ciekawy temat. zastosowanie sztucznej inteligencji w biotechnologii. Myślę, że to jest po prostu rozmowa o przeszłości. O tym sobie powiemy. No ale Bielik, czyli polski model językowy, polski LLM, czyli duży model językowy. W ogóle Remek, proszę państwa, od wielu lat zajmuje się sztuczną inteligencją, machine learning, wizja komputerowa, duże modele językowe i właśnie obecnie ten research. Powiedz mi proszę, bo jak czasami opowiadam różnym osobom o
02:47
Speaker E
Bieliku, o polskim modelu językowym, to pada często to pytanie: "Po co nam Bielik, skoro mamy chata GPT? I po co nam bić, skoro mamy Gemini? To jest model językowy, który jest dostosowany do języka polskiego. My jako twórcy modeli językowych widzimy bardzo dokładnie jakie są niuanse językowe w dużych modelach językowych, na przykład chta GPT, że to nie jest do końca język polski, dlatego że ma bardzo mocny, my mówimy o tym, taki błąd poznawczy czy taki bajas związany z dużą ilością
03:23
Speaker E
datasetu w języku angielskim. No tak, był uczony, tak był trenowany. Tak więc widzimy pewne elementy elementy nawet wczoraj na moim wpisie w X y pojawiła się taka informacja napisałem taką informację, że kiedyś pisałem y tekst, który napisałem ręcznie, całkowicie ręcznie, nie używając w ogóle sztucznej inteligencji i chciałem zbadać, czy systemy wykryją, czy pomagał mi model językowy. I ku mojemu zdziwieniu okazało się, że w 100% tekst został oceniony na czata GPT, więc y
04:00
Speaker E
stwierdziliśmy, że kto z kim przestaje, takim się staje. I dużo czatowałem z czatem GPT, więc zacząłem pisać jak czat GPT. Natomiast Bielik to jest język polski, czyli większość korpusu, którym zasilany jest model językowy, uczony model językowy jest korpusem języka polskiego.
04:00
Speaker F
Co to jest korpus? korpus to jest yyy yyy zbiór danych. To są teksty,
04:00
Speaker A
to są teksty, to są teksty w języku polskim. To jest polski internet.
04:00
Speaker B
Tak. To jest y więcej niż polski internet, bo yyy jeżeli przejdziemy w ogóle do pipelineu treningowego, to pierwszym etapem treningu jest pretraining i tam dajemy taki czysty tekst. Czyli
04:30
Speaker C
to słuchaj, o tym treningu to ja bardzo chętnie z tam precyzyjnie porozmawiam, bo ty się świetnie na tym znasz. Ty jesteś człowiekiem, który po prostu tworzy ten model językowy, trenujesz go.
04:30
Speaker D
Jestem współtwórcą. To też o tym powiemy. Jestem współtwórcą, czyli jest zespół treningowy Bielika, pięć osób. To zaraz do tego zapisemy, czyli Bielik, polski język. Po drugie, niewielki model językowy, który można instalować lokalnie, czyli firmy, które dzisiaj takie jak na przykład banki czy czy jakieś inne firmy, które nie mogą y przekazywać danych na zewnątrz, mogą
04:56
Speaker E
no bo na przykład nie wiem, są są bankami, jakimiś instytucjami, które na które regulacje prawne nakładają wyjątkową dbałość o dane, które przechowują, więc nie mogą sobie tego po prostu nie mogą chcąc wyciągać pewne wnioski za pomocą sztucznej inteligencji, takiego chzata GPT wrzucać tych wrażliwych danych online po prostu do chmury, nie? Bo to nawet przepisy im to tego zabraniają. Muszą to trzymać u siebie w budynku na serwerze w swoim.
05:26
Speaker F
Tak jest. I one nadal mogą używać chata GPT czy produktów googlowych, czyli na przykład Geminia czy czy czy jakichś innych rzeczy. Natomiast dla wrażliwych danych mamy bielika czy modele open sourceowe, które można po prostu instalować na wewnętrznej infrastrukturze w organizacji i przez to
05:55
Speaker F
zyskujemy tak tak niezależność, duże bezpieczeństwo, duży bardzo duże też przyspieszenie inferencji, czyli predykcji modelu, dlatego że nie musimy walczyć z jakimiś latencjami czy opóźnieniami łącza internetowymi. No i odpowiedzi potem
05:55
Speaker A
tak, nie mamy też żadnych ograniczeń.
05:55
Speaker B
Ale dobra, idziesz na to spotkanie do banku i teraz tam w tym banku mądrzy ważni ludzie się zastanawiają, no jakby pieniędzy nam nie brakuje, po prostu chcemy mieć super fajne narzędzie. No jesteśmy bankiem, który działa w Polsce na polskich danych z polskimi klientami. My też używamy języka polskiego. To jakich używasz argumentów? Wymień proszę katalog, którym, którymi ty będziesz próbował przekonać ten zarząd banku działającego w Polsce, że jednak będzie lepszy będzie lepszy Bielik od jakiegoś komercyjnego, znanego powszechnie modelu. No tu są argumenty, o których właściwie mówiłem, czyli to jest bezpieczeństwo, szybkość odpowiedzi, dostosowanie do języka polskiego,
06:52
Speaker B
łatwość yyy dostosowania przez yyy fine tuning, yyy szybkość działania, brak limitów na tokeny. Yyy
06:52
Speaker C
jest darmowy.
06:52
Speaker D
Jest darmowy. Właśnie chciałem zamknąć to klamrą, że nie płacimy oprócz tego, że musimy zainwestować w infrastrukturę. No bo takie, bo, bo taki czat GPT, rozumiem, do takich zastosowań komercyjnych, instytucjonalnych to jest koszt duży koszt. No ale poza tym co no chata GPT też mogę sobie ściągnąć i zamknąć tak?
06:52
Speaker E
Nie, chpt nie można zamknąć. Można oczywiście chata GPT zamknąć w tak zwanym cloudzie swoim własnym. Taką usługę na przykład oferują cloudy Microsoftu, gdzie można po prostu swoją instancję w cudzysłowiu, tam są dwa tryby, czyli pierwsze to jest czat GPT bez logowania informacji przedsiębiorstw w chmurze, a drugi to jest w ogóle własna instancja Chat GP.
07:22
Speaker F
Słuchaj, no to to jest rzeczywiście bardzo ważne, żeby to na tym etapie rozmowy jak najwcześniejszym etapie podkreślić. Ty nie przyszedłeś tu sprzedać żadnego produktu do tych fiskaliów. Ty yyy ty pracujesz i zarabiasz pieniądze w tym yyy po latach pracy w różnych korporacjach. Pracujesz dzisiaj w biotechnologicznym startupie i tam zarabiasz pieniądze. To to czym jest Bielik i stowarzyszenie Spichlerz Spiklis to jest tak naprawdę oddolna inicjatywa
07:57
Speaker A
w jakimś sensie patriotyczna. Wy po prostu robicie polski model językowy. Wy to robicie za darmo.
07:57
Speaker B
Tak, robimy za darmo. W ogóle tak, odpowiedź na twoje pytanie krótko, bo ja lubię niekiedy dłużej powiedzieć coś.
08:29
Speaker B
Tak, robimy to za darmo. To jest to jest właściwie takie taki twór, który stworzyli ludzie w 2023 roku i celem tej fundacji było stworzenie największego korpusu językowego, języka polskiego, tak żeby inni mogli trenować modele językowe.
08:29
Speaker C
No właśnie. Po po co cała ta inicjatywa? Znaczy od czego się zaczęło? Dlaczego ktoś na początku pomyślał jak, bo to było zaraz po tym, jak się czat GPT pojawił w listopadzie 2000 właśnie 23. On się pojawił oczywiście w sensie
09:05
Speaker C
publicznym. Znaczy nawet ja zacząłem się tym zajmować, interesować, bo to po prostu masowo trafiło. Oczywiście wy specjaliści od lat to wiecie, no ale zrobił się wtedy listopad ponad trzy lata temu wielki bum i krótko po tym właśnie powstaje pomysł, zróbmy coś po polsku.
09:05
Speaker D
Tak, w naszym świecie jakby informatycznym i tymjowym ten bum już był był wcześniej. On on był taki fazowy, bo bardzo mocno rozwijała się kilka lat temu sztuczna inteligencja, która była machine learningiem. Później ja przechodziłem przez fale wizji komputerowej. Właściwie dużo projektów robiłem z zakresu wizji komputerowej, bo modelowanie języka było dość trudne, karkołomne i nie dawało dobrych efektów. To to były lata powiedzmy tam przed 2020 rokiem yyy czyli były robione podstawowe zadania yyy z uczenia w y z modelowania yyy yy językowego i 2021 to był taki moment, w którym yyy ludzie zaczęli widzieć sens w modelowaniu modeli językowych. To był czat GPT, pierwsza wersja 3,5, która tak
10:12
Speaker D
naprawdę zrobiła takie wielki szum na rynku. Wracając do spichlerza, to jest tak, że idea była typowo społeczna, czyli stwórzmy korpus danych do trenowania języka polskiego. Głównym wyzwaniem tutaj takim, które zablokowało nasze myślenie o właściwie myślenie Sebastiana, którego też pozdrawiamy tutaj. Sebastian Kondradki
10:12
Speaker E
Sebastian Kąradzi tak było, że nie mamy mocy obliczeniowej, czyli tworzyliśmy na początku datety dla języka polskiego licząc na to, że ktoś wytrenuje polski model językowy.
10:53
Speaker E
Po to, żeby
10:53
Speaker F
takie wkłady. Tak,
10:53
Speaker A
tak. Tak. Po to, żeby model językowy na pytanie jakie sławne powiedzenie wypowiada Irena Kwiatkowska w 40latku, nie opowiadał, że na przykład nie wiem,
10:53
Speaker B
wymyślał. i wymyślał tak, tylko żeby powiedział yyy jestem kobietą pracującą, żadnej pracy się nie boję i
10:53
Speaker C
czyli doskonale zna ten polski kontekst, jest zanurzony w tej w tych polskich dokonaniach kultury.
10:53
Speaker D
Tak, tak dokładnie. Wie wie y o czym mówimy w Polsce i jak mówi się w Polsce.
11:22
Speaker D
Dzisiaj tak już odpowiada
11:22
Speaker E
na pytanie o Ironę Kwiatkowską.
11:22
Speaker F
Tak, tak, zdecydowanie tak. I to był pierwszy etap. W 2023 jest pewne wydarzenie Cyfronet w Krakowie i też tutaj pozdrawiam niesamowitą ekipę w Cyfronecie, od której wszystko tak naprawdę się zaczęło bo
11:36
Speaker A
to inicjatywa naukowa chyba takie
11:36
Speaker B
tak to była inicjatywa naukowa kupno super komputera Helios. To jest obecnie największy super komputer w Polsce. yyy jest właśnie w Krakowie. To jest 440 jednostek właśnie takich akceleratorów graficznych yyy dość specyficznych. Yyy wtedy Cyfronet kupował najnowszą technologię, ona się nazywa Grace Hopper
12:11
Speaker B
od Nvidi.
12:11
Speaker C
Tak, to jest NVIDIA. specyficzne dlatego, że akceleratory graficzne najczęściej to są same akceleratory graficzne, czyli mówimy o akceleratorach, o serii na przykład o technologii, na przykład Ampir Ada, Hopper, teraz Blackwell czy za chwilę kolejna jakby odsłona super chipów. Natomiast yyy AGH kupiło najnowszy sprzęt, który się nazywa Grace i Hopper i yyy cała jakby magia polega na tym, że yyy akcelerator graficzny jest yyy na jednej płycie z procesorem
12:52
Speaker C
CPU y i to ma swoje zalety i wady. Zalety ma takie, że jest bardzo szybki interconneekt między chipem graficznym a chipem takim zwykłym CPU. I do trenowania można to wykorzystać. Czyli jeżeli pewne elementy y modeli językowych czy danych nie mieszczą się na takich akceleratorach graficzne, bo te akceleratory graficzne mają swoją pamięć i te dane czy modele wgrywa się do tej pamięci, później akcelerator wykonuje operację na nim, to tutaj jest bardzo szybki interconnect, więc można bardzo
13:31
Speaker C
szybko przesyłać pewne informacje między CPU a GPU i robić tak zwany offloading pewnych rzeczy. Czyli nie mieści się na karcie graficznej. możemy zrzucić to bardzo szybko. Tylko, że problem jest też taki, który chłopacy musieli rozwiązać z cyfronetu, że to jest architektura ARMa, czyli to jest nie Intelowa architektura, tylko to jest ARM, czyli to jest zupełnie inna architektura procesora i wiele wtedy oprogramowanie po prostu było bardzo trudne do zainstalowania na tym super komputer,
14:02
Speaker C
żeby to było kompatybilne, żeby to razem grało.
14:02
Speaker D
Teraz jest zupełnie inaczej. Oprogramowanie się rozwija i i świetnie sobie radzimy. Cyfronet kupuje super komputer i pojawia się wyzwanie. Super komputer należy przetestować, ponieważ superkuter to jest duże urządzenie, to jest powiedzmy 4,5 m długości na pó5 metra szerokości. Są te akceleratory graficzne na takich bladach, czyli wkłada się po prostu takie blejy,
14:02
Speaker E
takie szuflady jakby tak,
14:02
Speaker F
takie szuflady. 440 takich szuflad mniej dlatego, że w takim bladzie jeżeli się dobrze orientuje, to jest jeden note, to jest cztery takie procesory,
14:38
Speaker A
czyli około ponad,
14:38
Speaker B
tak? Tak. I wkłada się takie bladyy, no i trzeba puścić jakieś zadanie, żeby ta maszyna cała została obciążona.
14:38
Speaker C
Mhm. I trudno było znaleźć w nauce w ogóle w środowisku naukowym takie zadanie, bo inne symulacje wykorzystywały bardzo dużo CPU, czyli raczej to była wektoryzacja obliczeń, a nie taka, bym powiedział, wirtualizacja na obliczenia równoległe na GPU i szukano takich tematów,
15:06
Speaker D
czyli kupiłem sobie Ferrari, ale nie pojeżdżę po Warszawie, nawet nie pojadę na autostradę, tak naprawdę potrzebny mi jest tor wyścigowy, żebym zobaczył, co to Ferrari naprawdę potrafi. i oni, AGH, zgłosiło się do nas, czy nie moglibyśmy razem na tym korpusie, który już był, przetestować modelu językowego. Muszę też od razu powiedzieć, że przy takim obciążeniu takiej maszyny mogą wydarzać się różne rzeczy, na przykład mogą się
15:37
Speaker D
palić takie karty graficzne po prostu. Czyli testujemy między innymi to, czy jest wydajny system chłodzenia. System chłodzenia w takim super komputerze jest systemem wodnym, czyli woda niebieskimi wężykami leci do takiego super komputera, przelatuje przez bloki, które są położone na chipach i te bloki po prostu odprowadzają ciepło z tych chipów. I mamy czerwone rurki, którym leci ciepła woda. Z tego co wiem w cyfronecie część wody jest oddawana do do do miasta. Natomiast są super
16:16
Speaker D
komputery, na przykład Lumi Finlandii, gdzie yyy zimna woda jest pobierana chyba z fiordów, jeżeli się nie mylę i oddawane jest w ogóle ciepło oddawane jest w wodzie do
16:16
Speaker E
No właśnie kaloryfer można podgrzewać w ten sposób
16:16
Speaker F
do wioski, która jest poniżej właśnie lub,
16:16
Speaker A
czyli okazuje się, że ciepła woda w moim kaloryferze jest tak naprawdę super komputerach.
16:16
Speaker B
Może być, może być z super komputera. Te super komputery biorą bardzo dużo mocy, bo też należy sobie wyobrazić, że taki chip może brać ileś set nawet do kilowa, czyli to jest bardzo duży duży prąd, ogromna ilość prądu. Stąd też dzisiaj mówi się o tym, że elektrownie atomowe czy w ogóle prąd stanie się jednym z takich asetów narodowych. Dlatego
16:43
Speaker C
polskie gardło rozwoju tej technologii, prawda?
16:43
Speaker D
Tak. Tak. Meta Meta teraz chwali się, że kupuje agregaty, które mają zasilać tysiące, tak naprawdę setki tysięcy takich chipów obliczeniowych. Czyli jesteśmy w tej AGH.
16:43
Speaker E
AGH chce przetestować super komputer. Przychodzimy i testujemy ten super komputer na pierwszym bieliku. To było 360 kart w piku, czyli nie wykorzystywaliśmy wszystkich akceleratorów graficznych. Pojawia się oczywiście wiele problemów, bo to jest pierwszy trening w ogóle na taką skalę w Polsce modelu językowego. Takiego takiej skali nie było na takim sprzęcie, więc musimy odpowiednio trenować. też musicie sobie wyobrazić taką sytuację, że y ponieważ koszt jest bardzo duży, nie można sobie puścić treningu tak jak na
17:49
Speaker E
zwykłym komputerze. Musi to być maksymalnie zoptymalizowane, dlatego że każde opóźnienie na czy niepoprawnie napisany taki skrypt treningowy wprowadza ogromne koszty, więc wszyscy optymalizują skrypty obliczeniowe, te treningowe pod super komputery, pod odpowiednią maszynę, pod daną architekturę, więc my bardzo dużo musieliśmy spędzić czasu na dostosowaniu wszystkich elementów do tego treningu. powstaje Bielik y 7, czyli 7 7 miliardów parametrów, wersja 01. Jest to wersja, która y jest wersją
18:26
Speaker E
demopoglądową i otrzymujemy pierwszy feedback. Pierwszy feedback brzmiał: "Mamy polski czat GPT jest głupi". I pamiętam takie nagłówki gdzieś to akurat był nagłówek, mogę powiedzieć, jednego znanego youtubera, którego bardzo szanuję. To była y Kuby Klawitera. Yyy i on napisał, zrobił super film, bo on po prostu skrytykował Bielika. My tej krytyki nie przyjmujemy na zasadzie y, że to jest obrażania się, bo to jest dla nas najlepsza informacja zwrotna i my ją wykorzystujemy.
19:00
Speaker E
Y Kuba powiedział o tym, że jest głupi. My przyjęliśmy to z pokorą, ale interesowało nas coś innego, że Kuba Klawiter powiedział, że to jest polski czat GPT. Polski czat GPT zrobiony za zero na nieporównywalnie mniejszych zasobach niż ma
19:00
Speaker F
na uczelnianej maszynie.
19:00
Speaker A
Tak, na uczelnianej maszynie i tak dalej. Więc troszeczkę staraliśmy się to wszystko odwrócić, powiedzieć: "dobra mamy pierwszego polskiego czata GPT w cudzysłowiu". Oczywiście wyszedł polski Bielik. Dużo szumu na początku. Oczywiście ten Bielik miał bardzo dużo problemów. Bardzo dużo problemów. My to wiedzieliśmy, ale stwierdziliśmy, że będziemy poprawiać ten model. Kolejne wersje to były wersje już wersji 2.0. Tam już było znacznie więcej poprawione zarówno pipeline treningowy, czyli pipeline treningowy to jest to są etapy treningu. To też od razu mogę powiedzieć, że etapy etapów treningu obecnie w Bieliku jest pretrening, czyli to jest pierwszy etap. Drugi to jest supervised fine tuning, czy to jest
20:09
Speaker A
drugi etap. Trzeci to jest alignment, czyli takie wychowanie i czwarte to jest uczenie przez wzmacnianie, czyli takie dopalenie modelu. Możemy zaraz o tym powiedzieć.
20:09
Speaker B
Tak jest. Rozszerzymy sobie każdy z tych ataków.
20:09
Speaker C
Tak. I powstają powstają nowe datasety, czyli zupełnie nowe korpus danych. Tutaj jedna z osób, czyli Adrian, u nas pracuje nad cały czas, właściwie 20, no nie powiem, że 24 godziny dobę, ale przez kilka lat pracuję nad tym, żeby te data sety były coraz większe. W tym
20:38
Speaker C
czasie Krzysiek Ociepa pracuje nad treningami, nad tym, żeby poprawić treningi. opracowuje swoją metodologię trenowania, swoje skrypty razem z Łukaszem właśnie Flisem z Cyfronetu, który jest szefem, że tak powiem, od ustawiania superkomputera, od optymalizacji superkomputera i dodatkowo Krzysiek Wróel jeszcze, który testuje bardzo, bardzo dokładnie wszystkie modele, czy one rzeczywiście prawidłowo się rozwijają. Powstają kolejne wersje Bielika. To jest Bielik 2.0. Ludzie
21:12
Speaker C
mówią, że już jest o wiele lepiej. nie jest taki głupi.
21:12
Speaker D
Nie jest już taki głupi. Potrafi odpowiedzieć na pytanie, czy kury są płaskie, bo kiedy miałem jaki jakiś wykład na UMK wśród profesorów i doktorów powiedzieli, że mamy bardzo fajną metodologię testowania bielika. Pierwsze dwa pytania, które trafiają do nowego bielika to czy kury są płaskie? Pierwszy bielik odpowiadał: "Tak, są płaskie, ich wymiar jest taki i taki". Kolejne już odpowiadały zupełnie inaczej. A drugie
21:45
Speaker D
pytanie to jest kim był Mariusz Pudzianowski? To oczywiście są żarty, ponieważ później przeprowadzamy bardzo dużo, bardzo dużo badań tego modelu. I teraz powstaje wersja druga. W wersji drugiej widzimy, że ten model znacznie się poprawia na wszelkich benchmarkach. Powstają kolejne kolejne wersje 23, 26. To są wersje, które adresują rzeczy, o których ludzie nam opowiadają w internecie, czyli śledzimy bardzo dokładnie przestrzeń publiczną i zbieramy informację zwrotną. Takimi
22:19
Speaker D
najważniejszymi rzeczami to były poprawki związane z agentowością, czyli z tym, by model potrafił rozmawiać w potrafił działać w środowisku agentowym. Czyli to jest tak zwane structure output tool use, czyli możliwość używania tak zwanych zewnętrznych narzędzi i to cały czas poprawiamy. I w grudniu 31 grudnia 2025 roku, czyli kilka tygodni temu, wydaliśmy wersję trzecią, która jest wersją euro, my to nazywamy, czyli to jest ponad 30 32 języki europejskie zaadresowane, nadal 11 miliardów
22:56
Speaker D
parametrów. Staramy się wycisnąć ile się da z tych 11 miliardów parametrów. bardzo piękne słowo, z którym spotykam się, bo to jest w ogóle zaskakujące, ale coś jest na rzecz, bo ja się z tym słowem i z tym określeniem spotkałem przy okazji różnych wydarzeń związanych ze sztuczną inteligencją, z rozmową o sztucznej inteligencji w Polsce, więc widzę, że to jest jakiś jakieś ważne dla was, dla waszego środowiska. Bardzo bym cię poprosił o rozszerzenie tego, z czym
23:22
Speaker D
to się wiąże. Suwerenność, o co chodzi z suwerennością modeli językowych. Suwerenność to jest po pierwsze nieuniezależnienie się od technologii, czyli mamy swoje modele językowe i tutaj mówimy o dwóch modelach językowych i myślę, że ich będzie niedługo więcej przy okazji yyy uruchomienia fabrykowych, czyli to jest y Bielik i oczywiście plum, czyli HI, obecnie konsorcjum naukowe, też dużo jakby modeli, które i też dedykowane do języka polskiego, czyli mamy dwie ekipy, które dzisiaj rozwią
23:58
Speaker D
rozwijają, bym powiedział, zawodowo modele językowe, a drugie to jest mimo wszystko budowanie kompetencji w Polsce, które mogłyby przy okazji budowy fabryk ajowych plus chęć do tego, żebyśmy mieli sztuczną inteligencję w polską własną, żeby rozwijały tą sztuczną inteligencję. No to jest bardzo ważne, bo na mądrych mózgów, które pasują do tych najbardziej wysublimowanych najnowocześniejszych najbardziej kreatywnych zadań związanych ze sztuczną inteligencją nie brakuje.
24:31
Speaker D
Wszyscy wiemy, że że że Polacy dają radę, że są te kompetencje, bo je widzimy za granicą. Chodzi o to, żeby tych te kompetencje, które mamy tutaj zostawały, bo żeby miały robotę w tym sensie, że no proszę bardzo, no jeżeli ja mam ambicje pracować nad sztuczną inteligencją, to ja po prostu nie chodzi nawet o pieniądze. Wiadomo, że tam zapłacą więcej, ale ja po prostu tutaj nie miałem możliwości. Chodzi o to, żeby one były, żeby były możliwości pracy nad tym w Polsce.
24:55
Speaker D
Tak w ogóle krajobraz y tego co się dzieje w Polsce się bardzo zmienia, bo ja go obserwuję od kilku lat y ładnych. W ogóle w IT jestem od jakby od bardzo dawna, więc obserwuję to z dużym zainteresowaniem jakby co się dzieje na tym rynku. Ja muszę powiedzieć, że byłem wielkim sceptykiem jakimś trzy c lata temu, kiedy nawet więcej, bo bo na KAGlu to startowałem nawet 6 lat temu, kiedy widziałem gdzie jest Polska na tle innych krajów. Polski nie było na inny na tle innych krajów. Mieliśmy super
25:29
Speaker D
algorytmików. algorytmików. Ty zapraszałeś do swoich wywiadów tutaj Adam Czajka, cała ekipa Opena, to są świetni algorytmicy. To to jest top po prostu świata. Natomiast natomiast my jeżeli chodzi o sztuczną inteligencję, byliśmy bardzo daleko, daleko w tyle. Pamiętam na Kaglu to były Chiny, które się uczyły sztucznej inteligencji. To się uczyły, naprawdę uczyły się i to było dość specyficzne, zaraz o tym powiem. To były Stany Zjednoczone. Troszkę Niemiec się pojawiało, dużo bardzo Indii
26:07
Speaker D
się pojawiało, natomiast Polaków w ogóle nie było. Polaków to było kilka osób, które które zajmowały wysokie rankingi. Miały też tytuł KGL Grandmastera. Tutaj pamiętam Pawła Godulleę, pamiętam Darka Kłeczka, który który w ogóle jest poczwórnym grandmasterem na Kaglu. To były pojedyncze osoby. Nie było osób, nie było w ogóle możliwości formowania polskich zespołów na KAGlu. I teraz przełączam się kilka lat do przodu, jakby i patrzę jak szkolona jest młodzież. wracam od razu do mojej nowej
26:42
Speaker D
firmy biotechnologicznej, w której pracuję i ja jestem pod ogromnym wrażeniem z jaką młodzieżą, z jakimi młodymi ludźmi współpracuję, jaki jaki mają potencjał po pierwsze intelektualny, po drugie jaką mają niesamowitą wiedzę. To jest wiedza, która zaskakuje no mówię, ja też nie jestem jakimś nie wiadomo jakim ekspertem,
26:42
Speaker E
ale siedzisz w tym od lat.
26:42
Speaker F
Ale siedzę w tym od lat.
26:42
Speaker A
Stacznie dłużej niż ta młodzież. No zdecydowanie więcej i błyskotliwość, umiejętność w ogóle myślenia w kontekście eaja, w kontekście rozwiązywania problemów. To są ludzie, którzy są już wykształceni przez przez jakby ten system, który już mówi o AIU. My musieliśmy dochodzić do tego sami. Musieliśmy po godzinach się uczyć, gdzieś zdobywać tą wiedzę, odkrywać. Wiadomo, że teraz w świecie internetu, czatów, narzędzi, które nam pomagają robić researchowy jest łatwiej. Natomiast młodzież obecnie, ja jestem po prostu zachwycony potencjałem tego, co mamy w Polsce i na czym możemy budować
27:49
Speaker A
świetną polską sztuczną inteligencję. Ale powiem więcej, y wydaje mi się, że my tego nie wykorzystujemy i w ogóle Europa tego nie wykorzystuje, bo jeżeli patrzymy na rynek chiński, to mamy po prostu fabryki, to są kombinaty, które produkują sztuczną inteligencję. Quen 2 lata temu to była taka ekipa powiedzmy jak Bielik, która produkowała, robiła modele, pierwsze modele. Dzisiaj to jest fabryka, która produkuje po prostu zawodowo modele i to nie jeden model, tylko po
28:23
Speaker A
prostu najróżniejsze modele od modeli tekstowych multimodalnych ocrch asrch i tak dalej. najróżniejsze modele. Także w Europie to jest mistral i tak naprawdę daleko, daleko nic. Słuchaj, mam takie wrażenie, że w tym programie dość często różni ludzie z bardzo różnych dziedzin mówią o patriotyzmie, ale mówią o takim zdrowym i takim naprawdę nowoczesnym patriotyzmie, takim takim nieprzaśnym. I mam wrażenie, że ty też o tym mówisz i to w takim najlepszym wydaniu, najnowocześniejszym najbardziej
28:58
Speaker A
przyszłościowym, bo mówisz o patriotyzmie technologicznym, o o takim jakim znaczy ty opowiadasz o Polakach tak jak my byśmy chcieli sami o sobie myśleć. taka intelektualna awangarda, która robi rzeczy na zresztą to było fajnie trochę widać przy okazji Wiedźmina sukcesu polskiego gamingu game devu. Lubiliśmy się tym chwalić, bo to fajnie jest sprzedawać, nie wiem, jakieś super i być popularnym potentatem w jakiejś dziedzinie, no takiej powiedzmy przemysłowej, ale to jednak jest taka
29:29
Speaker A
technologia, coś absolutnie nowoczesnego i mam wrażenie, że w przypadku sztucznej inteligencji jest podobnie, więc bardzo lubię o tym słuchać. Rozsmy jeszcze trochę ten wątek suwerenności, bo wiesz, wydaje mi się, że takim takim największym zagrożeniem, to już w ogóle jest jakieś ekstremum, z którym akurat my w Polsce mieliśmy do czynienia, to jest korzystanie z zagranicznej technologii do niezwykle tajnych rzeczy. Pegasus mieliśmy system Pegasus. To narzędzie wywiadowcze, absolutnie
29:51
Speaker A
najbardziej tajne, operacyjne dane. Są takie sugestie, podejrzenia, zarzuty, że narzędzie izraelskiej firmy, oddawanie polskich niezwykle, mało powiedziane wrażliwych, no tajnych wywiadowczych danych na zagraniczny serwer, poza granicę naszego kraju. Więc system, więc absolutnie ekstremalna sytuacja. Ale możemy powiedzieć o mniej ekstremalnych dziedzinach. Obronność, wojsko, administracja publiczna, medycyna, właśnie bankowość. O tym trochę trochę powiedzieliśmy. Przecież tutaj też potrzebujemy
30:18
Speaker A
suwerenności. Tutaj też potrzebujemy suwerenności. Ja wiem, że systemy y systemy militarne się rozwijają w wojsku.
30:18
Speaker B
Tak, tak, tak. To też było tak, że ponieważ gdzieś współpracowałem z firmą, która zajmowała się, zresztą też serdecznie pozdrawiam, będą wiedzieli o kogo mówi, mówię, ale była to polska firma, która zajmowała się analizą satelitarnych zdjęć, czyli monitoringiem satelitarnym i dość specyficzna technologia to jest technologia, która obecnie jest w posiadaniu Polaków i w posiadaniu
30:56
Speaker B
naszego wojska, czyli mówimy o obrazowaniu satelitarnym, radarowym.
30:56
Speaker C
Tak jest. Dokładnie tak. Natomiast firma, która pracowała między innymi na tych zdjęciach, na zdjęciach tej firmy tworzą oczywiście jeden z najlepszych na świecie. To jest też warto podkreślić systemów do monitorowania, do monitorowania i do analizy takich zdjęć. Yyy, i ja pamiętam te rozmowy yyy jak oni mieli bardzo trudno w rozmowach z Polakami, z polskim wojskiem, jakby na temat możliwości wykorzystania tej
31:28
Speaker C
technologii. Yyy to było kilka lat temu w żeby już na przykład patrzeć na pewne elementy jakby krytycznej infrastruktury czy czy jakiś elementów, tak? Czyli, czyli to był tylko my dzisiaj rzeczywiście potrzebujemy takich narzędzi, które umożliwią nam, ja to powiem, analizę pewnych danych w domu, tak? Czyli mamy je bezpiecznie tutaj nigdzie to nic nie wychodzi. Oczywiście duzi dostawcy mówią, to jest bezpieczna technologia i my nie przetwarzamy tych danych. Tylko należy pamiętać o jednej rzeczy.
32:03
Speaker C
Najlepszą daną treningową jest dana, która pochodzi od człowieka i z casów prawdziwych. Wiele firm dzisiaj technologicznych mówi, że kończy się świat danych, czyli w ogóle to jest też ciekawy wątek, czyli mówimy o danych, na których trenowane są modele, danych opisujących świat w postaci tekstu. Więc takie firmy poszukują źródeł danych i one mają dwie możliwości. Pierwsze, trzy możliwości. Pierwsze to jest optymalizacja procesów treningowych i architektur yyy modeli
32:36
Speaker C
językowych, żeby lepiej skompresować wiedzę, którą jest obecnie. Ta wiedza, od razu powiem, bo o tym się bardzo mało mówi. Świat, który jest opisany słowami yyy ludzkimi, to jest ten tekst, jest już kompresją świata.
32:36
Speaker D
Nie jest niejako materiałem źródłowym. nie jest materiałem źródłowym, dlatego że człowiek po pierwsze filtruje dane, czyli usuwa szum, który jest niezbędny w procesie bardzo dobrej generalizacji. Czyli po pierwsze, żeby modele bardzo dobrze albo AI obrazowało bardzo dobrze świat, musi być ten szum, a człowiek ma to do siebie, że upraszcza pewne rzeczy. Czyli jeżeli ja widzę pewną obserwację, to nie jestem w stanie, mózg nie jest w stanie tego ogarnąć, więc upraszczamy, odsyłamy szum i mówimy o najistotniejszych rzeczach i opisujemy je najważniejsze rzeczy.
33:18
Speaker E
Jeszcze bardziej kompresując,
33:18
Speaker F
tak? I jeszcze bardziej kompresują.
33:18
Speaker A
Sam język właśnie już przepisywanie tego to mózg skompresował, a ja pisząc jeszcze bardziej kompresuję.
33:43
Speaker A
Tak więc pierwszą rzeczą, która jest to jest trenujemy modele na skompresowanych informacjach,
33:43
Speaker B
czyli na uproszczonym świecie.
33:43
Speaker C
Tak, na uproszczonym świecie. W związku z tym no te modele są po prostu ograniczone.
33:43
Speaker D
I teraz
33:43
Speaker E
producent takiego oprogramowania ma kilka możliwości. Pierwsze to jest poprawić sprawność modeli współczynnika kompresji. Drugie to jest oczywiście wygenerować syntetyczne dane. Co robi już cały świat? syntetyczne dane to są sztuczne dane, czyli mamy dane tekstowe, na przykład o Marii Konopnickiej, jakieś fakty i yyy chcemy wygenerować więcej danych o Marii Konopińskiej na podstawie tych różnych materiałów, czyli mamy
34:17
Speaker F
tak jest i chcemy je,
34:17
Speaker A
my to mówimy o perturbacjach, czyli zrobić inny tekst o Marii Konopnickiej i w taki sposób dzisiaj te dane są jakby w firmach pozyskiwane, czyli syntetyzowane. Natomiast tutaj jest bardzo duży problem taki, że dane syntetyczne zawierają małą jest to jest mała informacyjność danych, dlatego że
34:54
Speaker A
semantycznie te dane, czyli znaczeniowe, one są bardzo podobne do siebie, więc do treningu modeli nie wprowadzamy nowych nowych wzorców wzorców takich, bym powiedział semantycznych. Są to prawdopodobnie te same, dlatego dane syntetyczne są dość ubogim w ogóle źródłem informacji. No i trzecim źródłem, to jest trzecią możliwością dla takiego dostawcy jest pozyskać dane z casjów źródłowych. Więc dostawcy starają się modeli językowych uruchamiać jak największe ilości usług,
35:30
Speaker A
żeby pozyskiwać dane. I nie mam nikt nie ma dowodów na to, że te dane są przetwarzane, ale mogą być przetwarzane przez anonimizację
35:30
Speaker B
i nadal anonimizując dane jest to coś innego. są inne casy, czyli zwiększamy różnorodność, różnorodność danych treningowych, a nam chodzi o różnorodność i jakość w procesie treningowym.
35:30
Speaker C
Słuchaj, to to czyli my w pewnym sensie przez naszą nasze miliardy codziennych zachowań w w przestrzeni elektronicznej, w przestrzeni wirtualnej, niejako jesteśmy dawcami źródeł do trenowania takich modeli. Czy czy byłbyś skonny powiedzieć tak na marginesie, bo przyszł mi do głowy pewien przykład. Jest taki trend teraz w mediach społecznościowych, żeby pokazywać swoje zdjęcia z 2026 i porównywać z tymi z 2016. Może się z tym zetknąłeś na przykład na Instagramie. No dużo tego widzę, że to to jest moje zdjęcie, to robię dzisiaj, a taki byłem, to robiłem 10 lat temu. Czy to może być takie taka dana źródłowa, która może
36:31
Speaker C
potem pokazywać, nie wiem ewolucję na przykład albo nie wiem, jak się człowiek zmienia, jak się zmienia jego zdjęcie, czy to może być wykorzystywane do do takich
36:31
Speaker D
jak najbardziej. W ogóle ja bym nie ograniczył się do żadnego casu. My mówimy o tym, że każda, każda dana dzisiaj jest dla nas cenna i my jesteśmy z nią w stanie zrobić wszystko. Meta w swojej publikacji, kiedy publikowała te felne modele, od razu mogę powiedzieć, to były takie modele Lama 4, które były trenowane i zespół treningowy
37:07
Speaker D
prawdopodobnie dołożył do danych treningowych dane z benchmarków, podkręcił tym wyniki na benchmarkach. Modele wyszły bardzo dobrze w benchmarkach. Niestety społeczność teraz już nie jest y nawet nie powiem, że głupia, ale po prostu nieświadoma. Bardzo szybko przetestowała te modele i okazało się, że te modele są bardzo słabe, jeżeli chodzi o takie umiejętności kognitywne. To był między innymi też powód tego, że Jan Lekuno odszedł z meta i tak dalej, i tak dalej. Natomiast
37:40
Speaker D
w tym paperze była napisana jedna, czyli w publikacji była napisana jedna ważna rzecz, że dzisiaj Meta stara się wyciągać każdy dokument, nawet jakiś skan OCR i poprawiać te skany OCR. My zresztą w Bieliku robimy to samo, czyli badamy jakość dokumentów. W procesie tworzenia dokumentów, tworzenia zbiorów treningowych jest kilka klasyfikatorów i między innymi mamy klasyfikator jakości tekstu, dlatego że dane do treningu muszą iść wysokiej jakości i różnorodne. I Meta mówiła, że
38:18
Speaker D
sięgają do tych danych, które są przez nich oceniane jako słabe i naprawiają te dane, żeby uzyskać nowe źródła danych do zasilenia pipelineów treningowych. Więc dzisiaj wszystko, co jest w internecie jest ciekawe z punktu widzenia ludziowych, ponieważ wszystko co jest w internecie opisuje y w sposób dość słaby świat. Ja ja jeszcze pociągnę ten wątek. Jednym z elementów tego, żebyśmy mieli lepszą sztuczną inteligencję, czyli żebyśmy zaczęli w ogóle mówić o AGI, bo to jest taki wątek, który
38:58
Speaker D
dzisiaj się pojawia. On jest bardzo ciekawy dlatego, że ambicje twórców, co ciekawe, sztucznej inteligencji zmieniają się z tygodnia na tydzień. I tak jak kiedyś mówiono, że AGI to będzie General Intelligence, to dzisiaj już twórcy dużych modeli językowych mówią, że nasz model będzie za dwa lata robił General Intelligence w kontekście tylko rozmowy z tym z tym modelem, czyli będzie rozwiązywał trudniejsze zadania. To jest w ogóle droga na na wielkie skróty. To jest uproszczenie w ogóle
39:27
Speaker D
tego, czym ma być AGI. I teraz jednym z elementów takiej drogi do AGI jest interakcja świata sztucznej inteligencji z prawdziwym światem. Czyli żeby żeby inteligencja była szeroka, czyli mówimy general, żeby to była super intelligence, to musi wejść w interakcję z rzeczywistym światem,
39:27
Speaker E
a wyjść z komputera, wyjść z pudełka, wyjść, zejść z biurka.
39:27
Speaker F
Zdecydowanie tak. Tam jest oczywiście w Agiu kilka problemów do rozwiązania, ale takim pierwszym podstawowym to jest oczywiście interakcja ze światem zewnętrznym, żeby sztuczna inteligencja uczyła się uzyskując informację zwrotną na zasadzie nawet prostych kar czy nagród. Czyli tak jak ludzie, tak jak w ogóle organizmy, jak patrzymy na ewolucję, pierwszym w ogóle etapem było to, że pierwotne organizmy dostawały bardzo prostą informację. Dobrze, źle na zasadzie giniesz lub przeżywasz. I to była interakcja ze światem zewnętrznym. Czyli mamy pierwsze to jest interakcja ze światem zewnętrznym, żeby powstała
40:35
Speaker F
AGI. Czyli mówimy tutaj o teraz, co jest popularne, uczeniu przez wzmocnienie, czyli przez reinforcement learning i w ogóle pojawia się mnóstwo, mnóstwo tutaj możliwości, czyli symulacja świata, czyli mamy teraz bardzo taki modny wątek words, czyli symulatorów świata. One pozwalają na przeprowadzanie interakcji właśnie ze światem, czyli robotyka nam się będzie rozwijała. Wszyscy wielcy tego świata, czyli Deep Mind yyy naukowcy z Oxforda, Stanforda próbują yyy tworzyć tak zwane środowiska, czyli
41:17
Speaker F
symulacje symulację świata. I to będzie wątek, który od razu mówię, że będzie się rozwijał 20262027. On myślę, że przykryje nam w ogóle świat llmów i tego. Drugim elementem to jest samo samo nauczanie się. Sztuczna inteligencja dzisiaj ma dzień świstaka. Czyli zadaliśmy pytanie, sztuczna inteligencja odpowiedziała i ona już nie ma stanu, który pamięta o czym przed chwilą rozmawialiśmy. To jest oczywiście trik, że ponownie my wysyłamy informacje do tego LLMA, o czym
41:51
Speaker F
rozmawialiśmy wcześniej, ale ona tej wiedzy nie może użyć w innych interakcjach z innymi użytkownikami. Więc kolejny wątek to jest kwestia tego, żeby sztuczna inteligencja sama się uczyła
41:51
Speaker A
od nas. Znaczy uczyła się na
41:51
Speaker B
uczyła się na przykładach, na tym, ale żeby
41:51
Speaker C
tak jak mózg się uczy, tak jak człowiek się uczy, tak żeby sztuczna inteligencja się uczyła.
41:51
Speaker D
No tak. No słuchaj, jaki to jest niewykorzystany potencjał. No bo wy siedzicie ten wasz pięcioosobowy zespół i trenuje tego, ten model językowy wcześniej, a potem tysiące ludzi, nie wiem, korzystając z tego z Bielika w aplikacji do wysyłania paczek, tysiące, nie pięć osób, tysiące ludzi robi różne rzeczy z tym lmem. tam coś pyta, dopytuje coś. Przecież jakby to czy to nie jest trenowanie na jakąś masową skalę, gdyby się udawało to implementować, jakoś zapisywać i zapamiętywać przecież jaka to jest skala uczenia.
42:17
Speaker E
Ale tak się nie dzieje. Rozumiem,
42:17
Speaker F
tak się dzisiaj nie dzieje. Są pierwsze próby. Mówimy o takiej neuroplastyczności. Tutaj świetny wątek jest polskiego startupu, który pracuje co prawda w Stanach, czyli Pafway, czyli Zuzanna i Adrian, czyli to jest y architektura dość innowacyjna, która właśnie stara się zaadresować pewne wątki uczenia właśnie ciągłego. Są też inne jakby rozwojowe tutaj rzeczy, które które pozwolą nam na trenowanie, czyli zmiana architektury w locie. W locie. Tutaj mówimy o takiej architekturze, architekturze, która nazywa się MOE,
43:25
Speaker F
czyli mixture of expert, mixture of teraz nawet nie pamiętam, technologia Googlea, gdzie ona w głąb po prostu przeskakuje struktury w sieciach neuronowych i tak dalej, i tak dalej. Czyli chcemy doprowadzić do sytuacji, że ten mózg będzie być może się modyfikował. Tutaj ostatnio się nie zgadzałem na Xie z twierdzeniami noblisty, że nie mamy takich y tutaj muszę się przyznać, nie mamy takich struktur. My już takie mamy struktury. One się pojawiają. pojawiają się pierwsze struktury modeli, które są
43:59
Speaker F
y wykorzystują genetykę y i y prace w ogóle genetyków związane z tym, żeby powstawały nowe modele jako mutacje jakieś populacji innych modeli. Więc ten wątek się rozwija i się będzie rozwijał jako myślę też taka rzecz przyszłości. Czyli mam jakby trzy wątki, które w Agi są istotne, czyli ciągłe uczenie, później mamy tą kwestię związaną z interakcją ze światem zewnętrznym i tak dalej, i tak dalej.
43:59
Speaker A
No tak. No bo bo my tak jak powiedziałem dzisiaj obcujemy z LLMami, czyli z dużymi modelami językowymi. To jest jedna z bardzo wielu emanacji sztucznej inteligencji. My to oczywiście mówimy skrótowo, że to jest sztuczna inteligencja. Nie no, to jest jedna jedna z objawów, no jeden ze sposobów, jedno z narzęd jakby z narzędzi, jedno ze światów, podgrupa dużej grupy sztucznej inteligencji, a to przecież tak jak Jan Lekun, no on jest generalnie nazwiskiem często przytaczanym na przykład przez Andrzeja Dragana w swojej książce Wejdis. Zresztą
45:05
Speaker A
nie tylko przez niego, przez wielu innych opisujących sztuczny jako człowiek, który się wiele razy pomylił, ale jednak a zajmował się, chciałem powiedzieć plastyką, generalnie obrazami, prawda? na na tym jego badania się skupiały. No ale on właśnie mówi lmy niekoniecznie. Jedna z z dróg, ale wcale nie jedyna i być może właśnie poznawanie czy trenowanie za pomocą obrazów. Ja sobie teraz tak myślę, zresztą to nie jest mój oryginalny pomysł. Któryś z gości w rozmowie o sztucznej
45:30
Speaker A
inteligencji powiedział: "Może trzeba wpuścić roboty w świat, roboty wyposażone w sztuczną inteligencję niech zaczną obcować, tak jak powiedziałeś, z rzeczywistym światem fizycznym. Niech zaczną chodzić po ulicach, zderzać się z nami, jakieś nie wiem pieski coś, ale wyposażone w te moduły sztuczne, niech się uczą świata w świecie, a nie z opisów z tekstów.
45:30
Speaker B
Tak jest. To znaczy my już powiedzieliśmy o tym, że ten opis z tekstu jest bardzo taki słaby. Jest to streszczenie świata włśnie, czyli nie czytamy lektury obowiązkowej do ósmej klasy, tylko czytamy streszczenie i w zasadzie coś tam wiemy o tej lekturze, ale nie do końca nie możemy tego sobie świata bohaterów wyobrazić i przeżyć tak naprawdę tego z nimi. Emocje są zupełnie inne czytając lekturę, a czytając opracowanie. Tutaj jest to samo. Jan Lekun rzeczywiście pochodzi, jest sporo kontrowersji wokół tego, ale pochodzi jakby jakby jego takie najważniejsze jakby przełomowe, to jest oczywiście
46:33
Speaker B
konwolucyjne, czyli splotowe sieci neuronowe, czyli wizja rzeczywiście komputerowa. Później był duży okres w meta i rozwój w ogóle różnych rzeczy. To nie tylko metole językowe i gdzieś tam lama i i i modele językowe. Ja się dzisiaj jeżeli chodzi o sposób rozumowania o sztucznej inteligencji z Janem Lekunem zgadzam. To znaczy Jan Lekun myśli dzisiaj bardzo szeroko. Po pierwsze myśli o tym, że LLMy to nie jest droga do General Intelligence. Ja się z tym zgodzę.
47:10
Speaker B
Chyba, że twórcy sztucznej inteligencji, tak jak powiedziałem ograniczą definicję AGI, czyli powiedzą:
47:10
Speaker C
"Ale to jest oszukiwanie". Tak, to jest to jest oszukiwanie się, no bo to AGI to jest tak naprawdę umiejętno pójdźmy jeszcze do trochę do tyłu, czyli sztuczna inteligencja to jest umiejętność przez komputer symulowania albo udawania umiejętności kognitywnych ludzkich, czyli słyszę, widzę, mówię, piszę i tak dalej, i tak dalej. Tylko to jest w świecie komputerowym. I teraz a nastąpi wtedy,
47:44
Speaker C
kiedy my nawet na niskim poziomie będziemy potrafili umiejętności kognitywne ze sobą łączyć, czyli będę umiał mówić, będę umiał pisać, będę umiał. Czyli skomplikowane zadania, które wymagają połączeń y umiejętności kognitywnych będą rozwiązywane w sposób taki, że sztuczna inteligencja weźmie sobie coś wizyjnie, coś tego i rozwiąże. Czyli będziemy potrafili na wielu poziomach modalności rozwiązywać dane zadanie. I teraz Jan Kun dzisiaj mówi, że LLMy to nie, to nie jest ta
48:15
Speaker C
droga. Sztuczna inteligencja to musi być po pierwsze word model, czyli modelowanie świata. On mówi jeszcze o innym modelowaniu świata, bo on mówi o jeepie i Leepa, czy o takich dwóch nurtach, gdzie mówi, że sztuczna inteligencja w ogóle może rozumować w wewnętrznych latent spaceach, czyli to są wewnętrznych takich przestrzeniach, które są językiem sztucznej inteligencji, bo dzisiaj jest tak, że sztuczna inteligencja rozmawia językiem ludzkim. Czyli na odpowiedź mamy yyy odpowiada
48:54
Speaker C
yyy językiem ludzkim. Co więcej, sztuczna inteligencja, czyli dzisiaj modele językowe działają w sposób autoregresywny. Czyli jeżeli wchodzi tekst na wejście tej architektury transformer, to na wyjściu wychodzi token, który jest y jakby przewidziany, a token jest tak naprawdę jakimś ciągiem znaków i on z powrotem wchodzi jako tekst i znowuż jest tam latent space, czyli struktura jakaś wewnętrzna w środku tego modelu, ale cały czas mamy tam język polski. Natomiast dzisiaj
49:28
Speaker C
mówimy o tym, że zaczynamy wchodzić w taki też świat tego, żeby model językowy w ogóle myślał w kontekście języka sztucznej inteligencji, czyli mówimy, że mamy laten spacey, czyli to jest właśnie ta skompresowana skompresowany język prezentujący świat, ale w świecie llmów. Czyli to nie jest yyy taki ludzki tylko język, tylko to jest po prostu jakieś jakieś reprezentacja świata skompresowana i model tak rozmawia. To jest pierwsza rzecz. I Jan Lekum właśnie o tym mówi, że po pierwsze interakcja ze
50:07
Speaker C
światem, a po drugie niekoniecznie rozumowania, rozumienia tak jak człowiek, tylko dać sztucznej inteligencji rozumować w takim języku, ja to upraszczam bardzo mocno, w języku sztucznej inteligencji i tak samo interakcja, bo możemy pójść troszeczkę dalej. Ludzie nie są mądrzy dlatego, że są ludźmi, tylko dlatego, że przez tysiące lat albo setki lat, tysiące lat formułowały się pewne społeczności i jakby mądrość grupowa powodowała, że ludzie szli po prostu do przodu. I tak
50:42
Speaker C
samo my widzimy w sztucznej inteligencji, że yyy bardzo silne są yyy silna sztuczna inteligencja, która działa jakby w grupach, czyli mówimy o systemach agentowych, o yyy połączeniach wielu modeli i tak dalej, i tak dalej. Więc dlaczego sztuczna inteligencja rozmawiając ze sobą ma rozmawiać w języku ludzkim? Może rozmawiać zupełnie na innym poziomie i ta reprezentacja wiedzy może być zupełnie inna, może być o wiele bogatsza. Ja tutaj jeszcze powiedziałem jedno takie słowo, które
51:14
Speaker C
jest dość zagadkowe. Mówię multimodalność. To jest też jeden z elementów powstania, który doprowadzi nas do tego, że będzie sztuczna inteligencja
51:14
Speaker D
generalna.
51:14
Speaker E
Tak. Multimodalność to jest yyy to jest yyy my dzisiaj operujemy na tekście i modele multimodalne powstawały wtedy, kiedy dawaliśmy inną reprezentację świata czyli
51:14
Speaker F
obrazy,
51:14
Speaker A
teksty. No właśnie,
51:14
Speaker B
czyli mówiliśmy dźwięk i tak dalej. I my możemy bardzo szeroko rozumieć tą multimodalność, bo my dzisiaj jesteśmy w klackie, w klatce ludzkiej i mówimy to będą obrazy, to będą dźwięki, dźwięki i tak dalej. Natomiast świat jest bardzo bardziej złożony i modalności mogą być bardziej złożone. Czyli modalności nawet możemy sobie tak pomyśleć, że mogą być na poziomie kwantowym. Czyli dla ludzi jest to rzecz nie niedostrzegalna.
51:46
Speaker C
Nie mamy takich zmysłów ogarniania sygnałów kwantowych do takich impulsów. Tak. Nie mamy takich receptorów do takich danych wejściowych.
51:46
Speaker D
Tak. Prostsza rzecz. Systemy militarne też wykorzystują na przykład zupełnie inne systemy, zakresy widma, jeżeli chodzi o postrzeganie świata. My mówimy o podczerwieni, my mówimy o zupełnie pasmach niewidzialnych dla człowieka.
52:17
Speaker E
Nasze pasmo jest wąziutkie,
52:17
Speaker F
z całego pasma fal elektromagnetycznych.
52:17
Speaker A
Tak. Tak. I to to jest jedna z modalności typu, żeby że dla sztucznej inteligencji daje się modalności na przykład multispektralne. I teraz jeżeli satelita leci gdzieś nad światem i to jest zwykła satelita ona pewnych rzeczy nie widzi. Satelita radarowa, ta która jest słynna, widzi wszystko, ponieważ jest to radar i w nocy, czy w dzień czy jak jest zła pogoda, chmury
52:52
Speaker B
też też widzi. Ale są satelity, które są multispektralnymi satelitami, które widzą w wielu spektrach tego i
52:52
Speaker C
taka satelita widzi o wiele więcej. Czyli widzi na przykład, że nad morzem jest ktoś wypuścił ropę albo jest jakiś y wyciek ropy, że na przykład rozwijają się jakieś jakieś formy życia typu jakiś plankton czy jakieś inne rzeczy nad tym. I jeżeli będziemy dodawać do sztucznej inteligencji nowe modalności, to uzyskamy lepszą reprezentację świata. I o to właśnie też chodzi. I teraz w biologii yyy wracając do mojego dzisiejszego podwórka to my tą biologię w naszej firmie obecnie widzimy bardzo szeroko. W ogóle moje doświadczenia przeszedłem przez wizję komputerową, przez lmy, przez machine learning, przez systemy też yyy autonomiczne, yyy, modelowanie systemów autonomicznych
54:06
Speaker C
i najtrudniejszym dla mnie jest świat biologii, od razu mogę powiedzieć, to jest
54:06
Speaker D
no właśnie
54:06
Speaker E
to jest jak modelowanie szumu w ogóle. Szukanie wzorców w świecie biologii jest bardzo trudne, ale tam wykorzystuje się w najnowszych właśnie systemach. To co jakby wizją naszej firmy jest, to jest wykorzystywanie wielomalności i wielu skal biologicznych. Czyli my dzisiaj nie chcemy dawać narzędziom narzędzi dla badaczy, dla biotechnolog, dla osób, które robią yyy proces yyy
54:43
Speaker E
drag development narzędzi, które operują na jednej skali, czyli na przykład na skali molekularnej albo na skali omicznej, czyli komórkowej, czyli czy na jakiś innych skalach. My dzisiaj myślimy o tym w taki sposób, że musimy tą biologię opanować na wszystkich skalach albo na większości skal,
54:43
Speaker F
czyli molekuła, komórka, tkanka, organ, aż ustrój, czyli organizm, a jeszcze więcej ekosystem.
54:43
Speaker A
Dokładnie. Tak, czyli chcemy po pierwsze pokazywać naukowcom, że musimy ten obraz biologiczny objąć właśnie na wszystkich skalach. To jest pierwsza rzecz, a drugie na różnych modalnościach, czyli model yyy nasz operuje na modalnościach właśnie związanych z jakimiś y ścieżkami sygnałowymi na poziomie DNA, na poziomie białek, na poziomie różnych różnych rzeczy, tak żeby zasymulować pewne pewne procesy, które zachodzą w komórkach.
55:15
Speaker B
Obiecuję, że o biotechnologii więcej będzie jeszcze w tej rozmowie. To jest niezwykle fascynujący, bardzo przyszłościowy temat. Ale jeszcze kilka takich naiwnych pytań z mojej perspektywy dla ciebie oczywistych. Yyy, powiedz trochę więcej o języku polskim. Dlaczego język polski? Bo ostatnio było było wiesz kilka takich sensacyjnych publikacji, wyników badań, z których wynikało, że generalnie język polski daje radę ze sztuczną inteligencją. O co dokładnie chodzi? Jak jest jak jest czy język polski jest lepszy w jakimś sensie do trenowania sztucznej inteligencji niż angielski? Odpowiedź brzmi nie. Użyłeś kilku fajnych słów w ogóle w
56:15
Speaker B
twoim pytaniu, dlatego że powiedziałeś, że sensacyjne wiadomości. Świat sztucznej inteligencji dzisiaj jest pełen sensacji. Pewne firmy duże, nie chcę wymieniać jakie, piszą, publikują badania. Już nie mówię o tym AGI. Każda firma oczywiście będzie miała za d trzy lata AGI,
56:15
Speaker C
tak swoją definicję.
56:15
Speaker D
Tak. Myślę, że to jest związane z tym, że w Dolinie Krzymowej jeszcze inwestorzy płacą
56:15
Speaker E
za AGI, za wizję AGI, więc trzeba mówić o AGI.
56:15
Speaker F
Rozumiem.
56:15
Speaker A
Więc to jest taka no moja personalna wizja. No aczkolwiek ja uważam, że to jest kierunek, który yyy no warto jakby drążyć i chcemy iść w tym kierunku, więc jakby nie krytykuję tego. Natomiast dużo pojawia się sensacyjnych informacji. Te sensacyjne informacje są podkreślane. To jest właśnie kwestia związana z limitami na GPU, kwestia języka polskiego świetnego i w ogóle kwestia nie wiadomo czego. Od razu powiem do publiczności, że jeżeli czytać publikację, to zawsze podchodzimy z umysłem bardzo krytycznym.
57:22
Speaker A
wiele publikacji, ja jestem świadkiem tego, ponieważ jako researcher areowy próbuję odtworzyć publikację. Moim zadaniem jest odtwarzanie publikacji między innymi teraz w zakresie biotechnologii, czyli biorę publikację i jeżeli są repozytoria, które implementują i modele, staramy się natychmiast jeweryfikować, czy rzeczywiście one są dobrze przeprowadzone. Duża część publikacji jest przeprowadzona w sposób lokalny, czyli na pewnych danych ona chodzi dobrze, ale na całej masie innych
58:00
Speaker A
danych w ogóle te eksperymenty po prostu nie generalizują. Więc podchodzimy do czytania papier naukowych dokumentów w bardzo podejrzliwy sposób, zwłaszcza w miejscach, w których każdy może opublikować. Dzisiaj najpopularniejszym źródłem to jest tak zwany archive.
58:00
Speaker B
Każdy może tam opublikować. Te prace nie muszą być recenzowane i te prace mogą być od wybitnych do bardzo słabych. Oczywiście jeżeli jest praca recenzowana, wydrukowana w porządnym czasopisie, tak to są to są rzeczywiście prace to jest to jest inna półka i tutaj ja też podchodzę do tego krytycznie, ale podchodzimy do tego inaczej. Druga rzecz to czyj język polski jest super. Kiedy pojawiła się ta praca
58:40
Speaker C
czyja pamiętam
58:40
Speaker D
to był prawdopodobnie Cornell University i Microsoft. Ja na to spojrzałem na są nagłówki i nie zgadzało się to z dwiema rzeczami. Pierwsza rzecz to była intuicja moja, która wynikała z ilości treningów, które przeprowadziliśmy i jak język polski się jakby trenuje. I druga to jest i jeszcze
59:20
Speaker D
jakby ciąc ten pierwszy włąek to jest z ilości tokenów które modelują język polski czyli jeżeli my spojrzymy sobie na duże modele językowe od dużych dostawców to proszę sobie wyobrazić że ilość tokenów z języka polskiego, które modelują język polski to jest 0,1%
59:45
Speaker D
to nie jest to jest 0,1% to jest niewielki ułamek, gdzie my dodajemy dane polskie do modeli językowych, czyli ktoś coś znalazł. Jestem świadkiem tego, znaczy świadkiem, jestem uczestnikiem rozmowy z chłopakami z Quen, gdzie byliśmy na konferencji, zatrzymaliśmy się z nimi i zaczęliśmy mówić, rozmawiać z nimi. Ile macie danych języka polskiego? No tyle. No to śmiech na twarzy, bo na sali dlatego, że my mamy o wiele, wiele więcej tych danych języka polskiego, więc mamy
60:16
Speaker D
niewielki ułamek języka polskiego. I teraz drugą rzecz, którą, czyli to nam się nie zgadzało, druga rzecz, która mi się nie zgadzała, szczególnie mi, to były kwestie związane z efektywnością języka polskiego w kontekście uczenia przez wzmocnienie. Akurat w Bieliku jestem odpowiedzialny za rozwój pipelineu rlowego, czyli jakby uczymy na sam koniec modelu jakby staramy się, żeby model sam z siebie się nauczył pewnych umiejętności.
60:16
Speaker E
Zaraz do tego pipelineu jeszcze przejdziemy.
60:16
Speaker F
Tak. Mhm.
60:16
Speaker A
I y zauważyłem pewną ciekawą obserwację, że modele, które były trenowane nawet na języku polskim nie chcą rozmawiać, nie chcą rozwiązywać trudnych zadań matematycznych w języku polskim. Po prostu one od samego początku ja mówię do niego: "Rozwiąż mi zadanie matematyczne na poziomie powiedzmy licealisty czy czy uniwersyteckim i on zaczyna mówić od razu w języku angielskim. Mówię tutaj o trenowaniu modelu w RLU i w tak zwanym chain of, czyli w potokach myśli, czyli w rozum
61:30
Speaker A
tak zwanym rezoningu. Modele nie chciały tego robić. No to zastosowaliśmy pewien dodatkowy element, czyli funkcji kary, czyli tak zwane reward function. Ustawiliśmy mu dodatkową reward za rozumowanie w języku polskim. ten model bardzo długo szukał, optymalizował się i cały czas rozmawiał w języku angielskim, ale w pewnym momencie model przez przypadek powiedział w języku polskim i zauważył, że dostał sygnał od reward function, czyli z środowiska dostał czy wszedł w
62:07
Speaker A
interakcję ze środowiskiem jako model, jako agent i mówi: "A zaraz dostałem pół punktu za coś,
62:07
Speaker B
nagrodę. tak nagrodę i spojrzał sobie na w cudzysłowiu spojrzał sobie, bo to jest kwestia właśnie yyy yyy rozkładu prawdopodobieństw na dwóch ciągach, czyli mamy patrzymy sobie na te na ten na to zdanie i on model patrzy i mówi: "Zaraz mówię po polsku i dostaję większą nagrodę, spróbuję jeszcze raz". I model się przełączył. Model się przełączył i to był taki moment, w
62:41
Speaker B
którym zauważyliśmy, że język polski nie jest efektywny. Dlatego, że w momencie, kiedy model odpowiadał w języku angielskim, liczba tokenów, czyli długość odpowiedzi rozumowania skracała się. Czyli model startował od 8000, powiedzmy, tokenów, generował 8000 tokenów i zauważał, że jest w stanie się coraz bardziej optymalizować i doszedł do 4000 tokenów w języku angielskim. Następnie znalazł regułę polski język da mi pół punkta więcej. W związku z tym nagroda będzie
63:15
Speaker B
większa, czyli moje przetrwanie będzie lepsze. W związku z tym zacznę mówić w języku polskim. jak zaczął mówić w języku polskim, to zamiast optymalizować liczbę tokenów, on zaczął coraz więcej używać tokenów i dochodzić nawet do 10 000 tokenów, czyli potrzebował o wiele więcej mówić w języku polskim, powtarzać sobie i Chainofot to jest w ogóle taki strumień myśli, czyli musiał mieć bogatszy strumień myśli w języku polskim, żeby rozwiązać tego. I teraz Cornel University. Jeżeli
63:47
Speaker B
pomyliłem ten uniwersytet, to to przepraszam, ale to był Microsoft też zrobił test i w tym teście z tego co pamiętam był po prostu proces badawczy nieprawidłowo przeprowadzony, czyli na podstawie jednej latającej ryby stwierdzono, że wszystkie ryby to są ptaki. Czyli zauważono gdzieś płynąc na morzu, że jakaś ryba sobie fruwa i stwierdzono, że ryby po prostu latają. Czyli przeprowadzono tak zwany test, który się nazywa Ruler. Ruler to jest taki test, który został zrobiony przez firmę
64:22
Speaker B
Nvidia. Polega to na tym, że dajemy bardzo długie teksty i szukamy w tym tekście klucza, jakiegoś klucza, czyli jakiegoś wyrazu czy jakiejś liczby, która jest położona w pewnym miejscu i coraz dalej w tym tekście jest położona. i badamy efektywność modelu na tak zwane operowanie na długich kontekstach, ponieważ w długich modelach językowych obserwujemy taki efekt, który się nazywa kontekster rot, czyli psucie się kontekstu. Czyli jeżeli mamy bardzo długi tekst, który chcemy przetworzyć za
64:58
Speaker B
pomocą modelu językowego, czyli wrzucilibyśmy całego pana Tadeusza, to model świetnie się orientuje w inwokacji, czyli w początku i świetnie orientuje się w scenie finałowej. a niekoniecznie orientuje się dobrze w środku i badamy tym testem sprawność modelów operowaniu na długich kontekstach. I teraz niektóre modele wysypują się już na 8000 tokenów, czyli gdzieś na początku i dalej już niczego nie widzą, a niektóre modele są w stanie dojść do końca końca i znaleźć tą liczbę.
65:31
Speaker B
I problem polegał na tym, że wniosek ten został wysnuty na podstawie jedynego tylko tekstu testu. W pozostałych testach model polski model polski język wcale nie był taki dobry. Na przykład rumuński język był lepszy w innym tekście w teście niż polski. A po drugie, co jest fundamentalnym błędem w ogóle i założeniem tego tekstu, było to, że tych kluczy poszukiwano w różnorodnych, w różnych tekstach, czyli dla języka polskiego wybrano lalkę Noce i dnie, przepraszam, Noce i dnie, a
66:08
Speaker B
dla języka angielskiego zupełnie inny tekst w języku polskim, w języku angielskim, który pochodził z X wieku. I jakby porównywanie jednego do drugiego nie miało zupełnie sensu.
66:08
Speaker C
Rozumiem. Inne pytanie na naiwnego laika. Ja bardzo dużo, być może za dużo w latach 90 grałem w gry komputerowe i i karta graficzna to mi się wiesz kojarzy z lepszym lepszym obrazkiem w Tomb Raiderze albo lepiej chodził Quake. Po prostu nie było dzisiaj młodzież mój syn mówi, że laguje, ja mówiłem, że się
66:45
Speaker C
zawieszało, al no po prostu lepiej to wyglądało, jak była mocniejsza karta graficzna. Tyle wiem o kartach graficznych. Ja po prostu kupowałem nową, żeby żeby szybciej i sprawniej chodziło i żeby lepsze gry mi się w ogóle uruchomiały. O co chodzi akurat z GPU w kontekście sztucznej inteligencji? Dlaczego to jest lepsze od nie wiem CPU i dlaczego akurat jak w ogóle odkryto, że to, że to, że Nvidia? No wiesz, ja znam tę nazwę, znam tę nazwę też z lat 90 właśnie z kart
67:10
Speaker C
graficznych, grając w gry komputerowe. Jak to się stało, że sztuczna inteligencja wiąże się z kartą z kartą graficzną, dzisiaj już to inaczej nazywacie,
67:10
Speaker D
tak? Y, rzeczywiście to są karty graficzne, nawet na super komputerze specjaliści z Cyfronetu by powiedzieli, że da się zagrać tam w jakąś grę. Oni by się podłączyli i by zagrali
67:10
Speaker E
i by hulało jak na razie.
67:10
Speaker F
Tak w ogóle karty graficzne czy GPU to jest temat na kilka godzin mówienia. Ja w ogóle zachęcam osoby do tego, żeby naszych widzów, żeby poznawali jakby to, co siedzi w środku GPU, jak to w ogóle wygląda w kontekście GPU, bo to jest pasjonująca w ogóle architektura i można tym spędzić wiele godzin i myślę, że wiele miesięcy studiując w ogóle czym to jest. Najprościej rzecz biorąc architektura, czyli tak, jeżeli wracamy się do gier komputerowych, pamiętam te pierwsze chipy NVD, to akcelerator graficzny służył do tego, że reprezentacja gra gry jest to ekran,
68:18
Speaker F
który ma ileś pikseli na ileś pikseli,
68:18
Speaker A
tak? I ta i co więcej reprezentacja tych pikseli jest w postaci RGB, czyli mamy trzy kolory, czyli to jest macierz albo tensor właściwie już, czyli nie jest macierz, tylko tensor, czyli wielowymiarowa, wielowymiarowy zbiór jakby macierzy i to jest taka macierz, gdzie ma tam 1024 na 1 na 800 ileś i i trzy kolory. I to już jest pierwsza pierwsza nasza podpowiedź, czyli mamy macierzę. Czyli jeżeli chcieliśmy zrobić jakąś operację
68:50
Speaker A
na grafice, czyli przestawić coś, posortować jakieś piksele i tak dalej, to chodziło nam o jakiś akcelerator, który przyspieszy operację na macierzach, czyli będzie robił to w sposób równoległy, czyli nie będzie robił sekwencyjnie, tylko równolegle. I o ile CPU również przetwarza równolegle, my tutaj mówimy po pierwsze o wielowątkowości plus wektoryzacji, czyli jeszcze jakby takiej dodatkowej technice, która jest zaimplementowana w CPU, to CPU mało takich, bym powiedział,
69:22
Speaker A
jednostek, które może odpalić równolegle
69:22
Speaker B
CPU, czyli zwykły, standardowy mikroprocesor na płycie, płycie głównej, jak to pamiętam, jak się montowało pecety
69:22
Speaker C
czyli powiedzmy sobie tak, że w dobrych procesorach, w takich topowych procesorach wirtualnych takich wątków, które można odpalić jest powiedzmy maksymalnie no 190 czy tego. Natomiast GPU to jest specjalizowany układ, który tak jak mówisz, cała historia jego pochodzi od gier. To jest istotne, dlatego że on nie był przewidziany do
69:54
Speaker C
historycznie do przetwarzania takich rzeczy jak AI i to ma to ma swoją historię i to jest istotne. i przez lata był udoskonalany. I on był udoskonalany jakby, czyli można odpalić bardzo dużo wątków. Jednocześnie to są setki tysięcy wątków, które można odpalić równolegle. Tak jak powiedziałem, architektura GPU jest bardziej złożona, bo mamy trzy poziomy pamięci. Yyy, zaraz też dojdę do tego, dlaczego to jest ważne. Yyy, pamięć charakteryzuje pamięć, czyli tam VRAN czy HBM to się nazywa, czyli
70:32
Speaker C
High Bandwi with Memory. To jest pamięć, która charakteryzuje yyy GPU. Yyy i my idąc do sklepu kupujemy kartę graficzną i się pytamy ile ma ona pamięci, tam 24 i tak dalej. W najnowszych tych kartach graficznych powiedzmy czy czy w akceleratorach graficznych mamy prawie że 200 200 gigb tam 180 w zależności od typu czy nawet jeszcze więcej. To już są duże pamięci i ta pamięć ma kolosalne znaczenie, bo w procesie treningowym modelu my tą pamięć potrzebujemy do załadowania modelu lub
71:10
Speaker C
danych i danych powiedzmy do tej karty graficznej. dlatego że karta graficzna nie może komunikować się za bardzo z procesorem. To jest bardzo wolna jakby magistrala. Wprowadzamy usprawnienia, które powodują, że szybciej karta graficzna komunikuje się z procesorem, ale to łącze transmisyjne jest bardzo wolne. To jest ulica taka wiejska, bym powiedział. Y, natomiast y procesor, czyli GPU to jest bardzo dużo rdzeni. Tam są specjalizowane takie, znaczy nie kernele, tylko to są
71:49
Speaker C
specjalizowane jednostki, czyli stream streamingowe jakieś. Dodatkowo są jakieś architektura ta i tak dalej, która powoduje, że to chodzi bardzo, bardzo wydajnie na operacjach matematycznych. Oprócz tego mamy jeszcze tensor cory, które bardzo dobrze obliczają robią operacje na małych macierzach. I teraz jak ja mówię, że L element to jest 80% mnożenia macierzy, czyli mnożenie macierzy mamy na yyy warstwach projekcyjnych, czyli tam są takie warstwy projekcyjne,
72:19
Speaker C
później warstwy atencyjne, później mamy takie warstwy, które są yyy warstwami jeszcze MLP czy FFN, czyli to są takie warstwy, które dodatkowe jeszcze sieci neuronowych. To tu są mnożenia macierzy, czyli mnożymy wagi razy input wejściowy, tworzy nam się aktywacja i później robimy operacje nieliniowe, które już nie są operacjami y mnożenia macierzy, czyli robimy y operacje nieliniowe, żeby można lepiej było się dopasować funkcję do nielinowych sytuacji i później jeszcze jakieś inne, ale 80%
72:54
Speaker C
jest mnożenie macierzy i GPU jest specjalizowane yyy historycznie podkręcane pod mnożenie macierzy. Te algorytmy mnożenia macierzy to są tak zwane kernele. Implementujemy jako kernele. To się tak nazywa fachowo. Czyli mamy taki mikroprogram, który mnoży macierze. Te kernele są uruchniane równolegle. Specjaliści piszą specjalnie kernele właśnie pod to, żeby przyspieszyć operację na macierzach. Co więcej to od razu też mogę technicznie powiedzieć, że kernele robi się tak
73:30
Speaker C
zwane fuse kerneli, czyli kilka operacji się robi na na raz, żeby ograniczyć transmisję y danych w GPU, bo GPU działa tak, że jeżeli my załadujemy dane do HBM, czyli to jest High Bandwi with memory, czyli to jest ta podstawowa pamięć, to żeby wykonać operację mnożenia macierzy, musimy przesłać porcję danych do szybkich pamięci. to a szybkich pamięci to są takie malutkie pamięci nawet do kilku kilobajtów, gdzie gdzie wykonuje się operację mnożenia macierzy i proces przesyłania nawet w
74:05
Speaker C
GPU informacji między tymi casami jest wolny i głównym ograniczeniem w modelach językowych mówimy o tym że to jest memory bound problem czyli modele językowe są tak duże musimy bardzo dużo przesyłać informacji w GPU I głównym ograniczeniem nie jest liczba operacji zmiennoprzecinkowych na sekundę, jak się mówi o teraflopsach, czyli czy petaflopsach na dużych komputerach obliczeniowych, tylko prędkość przesyłu na GPU, na magistralach GPU wewnątrz i dlatego optymalizuje się wszystkie przesyły
74:41
Speaker C
danych w środku GPU między cashami. Optymalizuje się właśnie kernele, żeby operacje były wykonywane w jednym kroku. kilka operacji, żeby nie następowało, bo jeżeli wykonamy taką operację, to musimy odesłać z powrotem z pamięci tej bardzo szybkiej, żeby zrobić miejsce do kolejnych operacji i przesyłamy. W związku z tym znowuż tracimy jakby na prędkości i wszystkie te rzeczy są optymalizowane, czyli mówimy o optymalizacji wewnątrz GPU magistra na które przesyłają po prostu informacje
75:15
Speaker C
po i GPU wystarcza mocy do obliczeń. Jest ich za dużo po prostu w świecie llmów jest jej za dużo. Yyy, natomiast optymalizujemy przesyłtymalizujemy przesył między GPU, czyli tutaj mamy takie technologie jak SXM, NV linki i tak dalej i optymalizujemy interconnect między nodami, czyli tutaj mamy bardzo szybkie sieci światłowodowe między nodami wysokiej klasy. Yyy, czy tutaj czy to jest sytuacja, czy to jest architektura, czy to jest hardware, na którym na który yyy istotnie wpływa
75:52
Speaker C
skalowal czy który się łatwo da skalować i efekt wynika właśnie z pomnażania tego, czyli do dokładania kolejnych kart.
75:52
Speaker D
Obecnie tak. Obecnie tak. Yyy, myślę, że to jest droga. To znaczy dzisiaj skalujemy, dzisiaj skalujemy dwa elementy. Pierwsze moc obliczeniową. W Polsce on jest ona niewielka i to jest wstydliwie niewielka moc obliczeniowa. Mówimy tutaj o jednym super, właściwie dwóch superkuterach, czyli Helios, Atena,
75:52
Speaker E
440 kart.
75:52
Speaker F
440 to był największy super komputer jeszcze. Teraz budujemy, budujemy, no w Polsce budujemy w centrum superkomputerowym w Poznaniu Piasta. ma powstawać chyba Gaja w Krakowie. Yyy, natomiast to będzie nadal nieporównywalne z tym, co ma świat. To jest świat ma w setkach tysięcy GPU y pojedyncze laby.
76:24
Speaker A
A my mówimy o setkach.
76:24
Speaker B
My mówimy o tysiącach.
76:24
Speaker C
Nie setkach tysięcy, tylko tys.
76:24
Speaker D
My mówimy o dziesiątkach tysięcy już tak docelowo. Tak, to jest to jest mało. Jest to wystarczająco, tak, żeby tutaj na polskim rynku bardzo dużo zrobić. To nie jest tak, że nie da się nic zrobić. Powinniśmy siedzieć i mówić o jak jest źle, że nic nie jesteśmy w stanie da się na tym co mamy robić.
76:56
Speaker E
Da się na tym bardzo dużo zrobić.
76:56
Speaker F
Na tym tutaj jest super kierunek. Mamy dzisiaj przede wszystkim skalujemy dwa elementy. Pierwszy mocą obliczeniową wiąże się to z tym, że konsekwencje są takie, że ludzie, firmy budują swoje elektrownie, mają problem z siecią, z zasileniem, z odprowadzeniem ciepła. też
77:29
Speaker F
są kwestie związane z eco, bo y te superkomputery generują ogromne ilości i CO2 i ciepła, mimo że są chłodzone i tak dalej. Helius tutaj był badany pod tym względem, to też można powiedzieć, że ten im nowsza architektura, tym mniej prądu. I teraz jeżeli spojrzymy sobie na architekturę Hopper, która jest nadal bardzo popularną architekturą NVD, czyli mówimy o architekturze, to się nazywa Comute Capability 90. To jest taki jakby architektura i kolejne to jest Blackwell, to mówimy o
78:07
Speaker F
przeskoku energii i mocy obliczeniowej około 10 razy. I dzisiaj na konferencji chyba CES czy teraz była w styczniu
78:07
Speaker A
w Barcelonie. Tak,
78:07
Speaker B
tak. Nie, nie w nawet nie w San Francisco tylko w Las Vegas.
78:07
Speaker C
W Las Vegas. Okej.
78:07
Speaker D
Tak. wychodzi CEO Nvidi, mówi, że będzie Vera Rubin, czyli nowa architektura Nvidi, czyli znowuż Vera to jest CPU, Rubin to jest GPU, nowa architektura i mówisz, że to będzie skok 10okrotny. Mhm.
78:07
Speaker E
Czyli od Hoopera, który jest dzisiaj bardzo powszechnie używany na całym świecie. W Polsce y główne serweronie są budowane na tej architekturze. Mamy stukrotną odległość. To jest zaledwie tr lata.
78:52
Speaker F
Jasne.
78:52
Speaker A
Trzy lata.
78:52
Speaker B
Wy w Biliku też pracujecie z Nvidią jakoś bezpośrednio?
78:52
Speaker C
Pracujemy z Nvidią. Zrobiliśmy bardzo ciekawy projekt. Mogę o nim powiedzieć, ponieważ jesteśmy na końcówce. Skończyliśmy. Zrobiliśmy podejście do tak zwanego mniejszego modelu Bielika, czyli model 11B. został taką techniką razem z Nvidią wytworzony mniejszy model, który się nazywa technika Minitron. To jest technika, która prunuje model. Pruning polega na tym, że mamy duży model i staramy się usunąć pewne elementy architektury, czyli zmniejszyć model. Jeżeli mamy 11B, to staramy się tak zmniejszyć model usuwając mało używane części modelu, żeby jak najmniej zepsuć ten model wyjściowy, czyli z 11B zrobiliśmy model 7B, usuwając pewne warstwy właśnie transformera i prunując model wsz, czyli niektóre elementy w w elementach MLP, czyli to są takie
80:15
Speaker C
nad atencją są dodatkowe takie elementy MLP, czyli to są najczęściej trzy warstwy liniowe z jakąś funkcją nieliniową. To jest taki gating tak naprawdę, który nam uzdatnia cechy, cechy po wyjściu z atencji, czyli jeżeli mamy w atencji nadawany kontekst, relacje w kontekście, czyli mamy długi tekst, czyli to jest kontekst i mamy ustalone relacje w atencji między poszczególnymi elementami. Czyli na przykład mamy takie zdanie: model wyszedł na scenę, a ten model jest trenowany za pomocą jakiegoś
80:57
Speaker C
frameworku. To model. Musimy stwierdzić, czym jest model. I atencja określa jaka jest semantyka określenia model, czyli mówi w relacji z innymi wyrazami, że model to jest w jednym przypadku to jest jakiś model, który wychodzi na scenę i będzie prezentował prawdopodobnie modę, a drugi to jest model językowy. Natomiast warstwy MRP, które są zaraz za atencją powodują, że dodajemy dodatkowe cechy znaczeniowe. znaczeniowe, czyli no dodajemy znaczeniowe, czyli znaczeniowość, czym konkretnie jest ten
81:33
Speaker C
model w kontekście w kontekście tego tego zdania i tam można też zmniejszyć rozmiary, bo myślę, że około 60% w ogóle tego, czy nawet 70% zajętości modelu jest w tych modułach MLP i można tam troszeczkę je zmniejszyć i odzyskać odzyskać wielkość modelu. Czyli zmniejszyliśmy model i zastosowaliśmy dość innowatorskie podejście do treningu modelu, czyli tak zwane destylacje modelów modeli, czyli bierzemy model, który jest teacherem, nauczycielem i on tylko pokazuje jak jak
82:10
Speaker C
się odpowiada na dane pytanie, na dane zadanie i ten mniejszy model, który jest destylatem i uczniem, który jakby usunęliśmy te warstwy uczy się naśladować, imitować większy model, czyli jakby pokazujemy mu jak powinien odpowiadać i ten model imituje i to zrobiliśmy z Nvidią w przeciągu trzech tygodni. Bardzo szybki projekt. Mieliśmy duże zaplecze specjalistów od Nvidii. Mieliśmy też moc obliczeniową od Nvidi. Pracowaliśmy na ich DGX cloudowych, czyli na tak zwanym
82:47
Speaker C
Leptonie. Też używaliśmy ich narzędzi. Także bardzo ciekawa współpraca. A drugim takim projektem, to już powiem krótko, to jest projekt, który jest bardzo ważny dla nas, czyli projekt czyszczenia danych, deduplikacji danych, czyli dane, jeżeli wstawiane są do treningu, musimy unikać sytuacji, w których ten sam tekst pojawia się wielokrotnie w w danych i cały korpus, czyli wszystkie dane, które mamy, musi być przepuszczony przez taki proces czyszczący. Pierwsze to jest oczywiście jakość
83:21
Speaker C
modelu, a druga to jest deduplikacja, czyli musimy usunąć rzeczy, które opisują to samo. I deduplikacja jest na takich trzech elementach, czyli na takich trzech warstwach. Pierwsze to jest duplikacja exakt, czyli deduplikujemy dokładnie te same materiały, czyli publikujemy coś na WP i publikujemy gdzieś na jakimś innym blogu i my nie chcemy tych samych artykułów mieć. Druga to jest takie wykorzystanie takich algorytmów typu mini has czy LSH. To jest takie fazi maczowanie, czyli
83:54
Speaker C
mogą być prawie te same teksty na zasadzie na zasadzie jakby dokładnego dopasowania tekstów, czyli coś niewiele się zmienia i my określamy takie rozmyte rozmyty próg. mówimy, że jeżeli te teksty są na poziomie 0,95 taki tego, to powyżej tego to są te same teksty, ale jeżeli one się na przykład jednym z jedną nagłówkiem yyy zmieniają, bo redaktor napisał coś innego, to znaczy, że to są same te same teksty. I ostatnia, najbardziej zaawansowana technika to jest tak zwana
84:27
Speaker C
technika semantycznego podobieństwa. Czyli można sobie wyobrazić taki tekst, że Maria Konopnicka napisała coś i Bolesław Prust napisał coś i i to są w zasadzie inne teksty, bo Maria Konopnicka co innego napisała, Bolesław Prus coś innego, ale z punktu widzenia semantyki, czyli różnorodności tekstu, a ja mówiłem o tym, że model potrzebuje różnorodnych wzorców i szumu, żeby się uczyć. My my widzimy, że semantycznie nie wprowadza nam to żadnego, żadnej różnicy, czyli tego. Natomiast to są
85:07
Speaker C
podobne zdania. Gdybyśmy napisali, że Maria Konop, napisz mi wiersz o Marii Konopnickiej, napisz mi poemat o Marii Konopknj, napisz mi limeryk, to semantycznie one są inne, więc to nam poprawia jakby trening. Więc również mamy taką technologię, która pozwala nam czyścić dane i to robimy z envidią. A czy yyy komputery kwantowe zmienią twoją pracę? Czy komputery kwantowe zmienią sztuczną inteligencję? Nie, krótko odpowiadając, nie. Ja się nie znam na komputerach kwantowych, natomiast miałem
85:41
Speaker C
tą taką unikatową możliwość rozmowy z osobami, które zajmują się komputerami kwantowymi i one mówiły, że po pierwsze komputery kwantowe to jest budowa komputera kwantowa jest pod specjalny cas, czyli to nie jest
85:41
Speaker D
do ogólnych zadań
85:41
Speaker E
ogólnych zadań, tak?
85:41
Speaker F
Do konkretnych zastosowań. dużo wyzwań związanych z komputerami kwantowymi, bo one zupełnie inaczej jakby funkcjonują, ale ona teraz być może nie zmieni mojego życia i tego jak ja będę pracował. Natomiast ja mam tutaj inny inny pogląd na temat tego czy się tym zajmować czy nie i czy się w Polsce tym zajmować. Ja wiem, że mamy super specjalistów od tej technologii i uważam, że nawet w celach researchowych powinniśmy inwestować i zdobywać kompetencje w tym zakresie. Czyli mówię tak, prawdopodobnie nie zmieni to mojego, mówię prawdopodobnie, bo nic nie jest pewne, nie zmieni mojego sposobu pracowania nad EA, może kiedyś w przyszłości. Natomiast ja jestem znowuż patriotycznie bardzo tutaj oddany temu, żeby tym naukowcom,
87:02
Speaker F
których mamy w Polsce dać możliwość pracy na takich komputerach, budować swoje rozwiązania z zakresu y komputerów kwantowych eksperymentować pozyskiwać wiedzę, przekazywać ją kolejnym pokoleniom, inspirować młodych ludzi, którzy mogliby pójść tą ścieżką.
87:02
Speaker A
Jasne. No i życzymy, żeby tak było w istocie. Powiedz wreszcie proszę na czym polega trenowanie dużego modelu językowego. To znaczy co się kryje pod tymi różnymi etapami? Przypomnij jakie to są.
87:02
Speaker B
Tak jest. Yyy duży, duże modele językowe, dość specyficzne. Właściwie większość generatywnej sztucznej inteligencji trenuje się bardzo podobnie. Czyli jeżeli mówimy o modelach językowych, o modelach multimodalnych czy modelach jakiś dyfuzyjnych i tak dalej, to trenujemy je w podobny sposób. Trening składa się z kilku etapów. Pierwszym takim etapem to jest etap w ogóle pozyskiwania danych. To jest etap, który jest kluczowy do w ogóle do tego, żeby powstawało coś, co będzie się nazywało sztuczną inteligencją.
88:01
Speaker B
Czyli to są te datasety, te te
88:01
Speaker C
korpusy, korpusy językowe w tym przypadku, ale to są ogólnie zbiory danych. Od razu powiem też z czego się składa taki etap, czyli jak jak to się dzieli. Po pierwsze pozyskujemy dane w różny sposób. To jest web scrapping, tam gdzie możemy pozyskać dane. Czyli jeżeli wchodzimy na stronę internetową, gdzie jest napisane, że nie można stosować do yyy AIA, te dane nie są pozyskiwane. Jeżeli możemy pozyskiwać, to je pozyskujemy. Pozyskujemy. Drugie to są
88:31
Speaker C
otwarte źródła danych, które są w Internecie. Po prostu ludzie zebrali, powiedzieli, że to jest otwarta licencja typu Apach czy MIT, możemy dostosować. Kolejna rzecz to jest pozyskiwanie źródeł zamkniętych, czyli yyy rozmawiamy z przed yyy yyy wydawcami i oni mówią: "Słuchajcie, możemy wam dać stare na przykład książki i tak dalej, i tak dalej". Czyli
88:31
Speaker D
Biblioteka Narodowa na przykład
88:31
Speaker E
yyy nie mamy kontaktu z Niektórzy wydawcy przekazują nami informacje. Mamy dostęp rzeczywiście do obrazów graficznych do
89:03
Speaker F
jakiś repozytoria obrazów.
89:03
Speaker A
Tak, tak, tak, tak, tak. stare, stare archiwum narodowe. Archiwum narodowe. Tutaj robiliśmy jakiegoś poca z nimi, jeżeli chodzi o zdjęcia. Innym możliwością jest to, co powiedziałem, czyli produkcja danych syntetycznych. My od samego początku weszliśmy w produkcję danych syntetycznych i produkujemy, czyli sztucznie generujemy dane. Kolejną rzeczą, która jest w procesie danych, to jest klasyfikacja jakościowa, czyli
89:36
Speaker A
mówimy: "Okej, mamy zbiór danych, mamy teksty, jakiej one są jakości?" czyli napisane przez kogoś. Książka jest wysoką jakoś wysokiej jakości, ale jeżeli pozyskamy dane na przykład z for internetowych, gdzie mamy to już było, zamykam temat, to już było, zamykam temat, uśmieszek, uśmieszek, piwko, piwko, no to wiadomo, że trzeba takie dane wyczyścić. Kolejnym elementem jest ocena jakościowa, później jest klasyfikator, klasyfikator tematyczny, czyli mówimy: "Ten tekst jest polityką,
90:15
Speaker A
ten tekst jest zdrowiem, ten tekst jest czymś". Jest to ważne z tego względu, że gdybyśmy dali modelowi przeważającą ilość tekstów biologicznych, on by zapytany na przykład kim była Maria Konopnicka mógłby odpowiedzieć tak naprawdę tekstem prawie że biologicznym czy jakimś naukowym czy politycznym i tak dalej.
90:15
Speaker B
Chodzi o to, żeby równowaga i żeby to jak najbardziej odpowiadało rzeczywistości.
90:15
Speaker C
Tak. My musimy zbalansować po prostu datasety. Kolejnym elementem są klasyfikatory. Klasyfikatory mówiące nam o tym, jakiego, jakie to są teksty, czy to są polskie, angielskie. Mamy, przypominam, już teraz ponad chyba 40 języków w naszym datasecie. 32 były trenowany Bielik 3.0. I oprócz tego mamy klasyfikator jakości danych obcojęzycznych, czyli mamy jeszcze dodatkowo klasyfikujemy język na przykład węgierski i mówimy, że w tym węgierskim są jakieś błędy. Okazało się, że najlepsze datasety, które są wymieniane przez społeczność aiową, czyli na przykład fine web 2.0, który jest
91:26
Speaker C
podstawą trenowania wielu modelów, przez nasze klasyfikatory one nie przeszły. Wiele tekstów jest zepsutych. Czyli na przykład tekst uważany jest za wysokiej jakości przez Fineweb, czyli przez twórców Fineweba. Natomiast my jesteśmy w stanie wykryć, że polski tekst to jest zlepek bezsensownych różnych rzeczy, który w ogóle nie pasuje do języka polskiego. Kolejnym elementem to jest naprawa tekstu. To mówiłem, czyli mamy tekst o niższej jakości. Trenujemy model zawsze na quality high, czyli na
92:01
Speaker C
wysokiej jakości. Ale staramy się poprawić teksty. Poprawiamy je Bielikiem, żeby było też ciekawie. Czyli Bielik patrzy na ten tekst i go poprawia. I to jest etap budowania danych.
92:01
Speaker D
To są dane dane danych, które są danymi źródłowymi źródłowymi danymi, my mówimy row, czyli takimi surowymi danymi.
92:01
Speaker E
Co dalej? Oprócz tego niestety nie będzie dalej, bo musimy zbudować dane dialogowe do yyy kolejnych etapów. Yyy dane do alignmentu, czyli dopasowania, ja zaraz o tych fazach powiem i do RLA.
92:40
Speaker E
I to zamykamy etapnych. Następnie jest wybór modeli, czyli wybór modeli i takich podstawowych prypiów architektonicznych, czyli co będziemy trenować, jakie modele. Jest to związane z tym, że musimy uwzględnić trzy trzy kryteria. Pierwsze to jest ile mamy mocy obliczeniowej, ponieważ AGK nie daje nam całego superkomputera. Mówi i mówi: "Słuchajcie, tutaj się nic nie dzieje na tym komputerze i teraz sobie trenujcie przez pół roku hulaj dusza piekła nie ma". Mamy slot w ramach
93:12
Speaker E
grantu. Mówi nam na przykład AGH, że mamy dwa tygodnie na wytrenowanie modelu, bo będzie wtedy komputer dostępny i mówi nam tyle GPU będzie dostępnych i musimy do tego dobrać odpowiednią architekturę. Dlatego że modele w ogóle modelem dob architektura. Yyy, kolejnym elementem jest kwestia pretreningu, czyli gdyby to przenieść na taką metaforę studencką, akademicką, to bym powiedział: "Wkuwamy wiedzę". Czyli y my po prostu czytamy podręczniki. Czytamy podręczniki. Polega to na tym,
93:48
Speaker E
że model patrzy na tekst. To co ma przewidzieć to jest kolejny token, czyli na podstawie danego rozkładu prawdopodobieństwa, czyli mamy jakiś tam rozkład prawdopodobieństwa, ma przewidzieć. Aha, czyli skoro widzę to to
93:48
Speaker F
dodaje to, to prawdopodobnie wystąpi ta część, ta część słowa. To jest tak.
93:48
Speaker A
Tak, tak, tak. I my patrzymy, czy rzeczywiście z jakim prawdopodobieństwem wystąpiło wystąpiło takie słowo, bym powiedział i to jakby tam uczymy w pretreningu, czyli pretrening to jest czytanie książek. Kolejnym etapem jest etap testowania modelu, czyli mamy pretrening, on po pretreningu potrafi tylko przewidywać następny token. Czyli jest student, który po prostu mówi coś tam, ale to jest niepoukładane. Niby coś mówi
94:20
Speaker B
tak niby coś jest związane z tym tekstem, ale nie do końca. A już na pewno nie rozumie co mówi.
94:51
Speaker B
No on na początku rozumie, później to zaczyna się tam zmieniać, coraz gorszy tekst generuje, ale to to jest nieużyteczny. Z punktu widzenia użytkowego to ten model nie nie ma dużej użyteczności. Ma on użyteczność dla osób, które trenują dalej modele. Czyli to jest taka podstawa mówimy, to jest baza. I teraz w Polsce zarówno Plum, jak i my robimy pretrening kontynuowany. Retrening kontynuowany polega na tym, że bierzemy model, który ktoś już przetrenował na języku angielskim i
95:23
Speaker B
dotrenowujemy go na tak zwanej mieszance tekstów angielskich i polskich. Dlaczego na te mieszance? Znaczy to jest duże uogólnienie, o którym powiedziałem, czyli angielski, polski. Staramy się dobrać dataset tak, czyli dane do treningu, żeby odzwierciedlały rozkład prawdopodobieństwa, to tak się mówi, czyli rozkład yyy tego yyy tekstu, na którym był model trenowany jak jako jak pierwszy jakby od od zera. Dlaczego w Polsce się adaptuje? Dlatego, że to jest mądrzejsze podejście, dlatego
95:57
Speaker B
że potrzebujemy zdecydowanie mniej zasobów obliczeniowych. Robi się to szybciej i robi się to skuteczniej. My mamy zbyt małe datasety, żeby jakby napędzić duże modele językowe od zera, czyli to to są modele językowe, które są inicjalizowane losowo i potrzebujemy ogromnych korpusów i ogromnych mocy obliczeniowych, żeby wytrenować od zera. Z tego co wiem, Plum próbował robić takie eksperymenty i chyba nadal próbuje y robić takie eksperymenty. No jakby to są naukowcy,
96:31
Speaker B
więc jak najbardziej to to to fajnie, że że próbują taki zrobić, ale ekonomicznie najlepiej robić pretrening kontynuowany. Kolejnym etapem to jest benchmarki. Mamy kilkanaście benchmarków. Ja za chwilę o nich powiem. Następnym etapem jest SFT, czyli supervise fine tuning, czyli to jest uczenie nadzorowane, czyli mamy uczenie behawioralne, czyli model do tej pory generował ciąg tekstów jeden po drugim, a dzisiaj mówimy mu tak ile jest 2 + 2 i pokazujemy mu odpowiedź i pokazujemy mu
97:06
Speaker B
różne odpowiedzi. pokazujemy, możem możemy powiedzieć cztery. Możemy powiedzieć, aby obliczyć 2 + 2, należy użyć yyy zasad matematycznych, kolejności działań i tak dalej, i tak dalej. Kolejny pokazuje mu przykład ile jest 2 + 2 i on mówi 2 + 2 rozwiązanie to jest 4. I uczymy go umiejętności behawioralnych, czyli dajemy pobudzenie modelowi, a on mówi to jest cztery i już zaczyna ładnie odpowiadać, czyli jest użytecznym modelem. Czyli z osoby, która wiedziała już potrafię robić zadania, tak? Czyli
97:42
Speaker B
rozwiązywać zadania. Czyli nie znam tylko teorii na temat algebry, tylko potrafię rozwiązywać zadania matematyczne z zakresu algebry. Kolejnym etapem jest znowuż testowanie, czy nie pogorszyliśmy modelu. Kolejnym, następnym etapem jest tak zwany alignment, czyli dopasowanie modelu, dostosowanie, mówimy niekiedy wychowanie. Alignment ma kilka kilka celów. Po pierwsze, historycznie alignment został był wykorzystywany do tego, żeby model nie odpowiadał na trudne pytania typu w jaki sposób
98:15
Speaker B
skonstruować materiał wybuchowy, w jaki sposób skonstruować substancje niedozwolone,
98:15
Speaker C
bo on odpowiadał, ale na tym etapie to się to mu się mówiło: "Nie pokazuj tego
98:15
Speaker D
nie pokazuj tego". To znaczy on był uczony do tego, że pokazywaliśmy mu dwie pary odpowiedzi i mówiliśmy mu: "To jest czego nie chcemy, a to jest co chcemy". I model yyy patrzył na te jakby w cudzysłowiu patrzył na te dwie odpowiedzi, porównywał swoją odpowiedź i mówił: "Preferuję yyy przestaw się jakby
98:45
Speaker D
na myślenie, że masz odpowiadać w taki sposób jak ktoś konstruktor tego modelu powiedział, że my preferujemy i ten model się przedstawia. Drugim celem alignmentu było to i to jest wykorzystywane w bieliku dlatego, że Bielik jak mu się zada pytanie na temat substancji to on odpowie tak jak w internecie ktoś napisał i on sobie zinternalizował tą wiedzę. Drugim możliw drugim celem jest dostosowanie stylu, czyli my chcemy, żeby model odpowiadał na przykład używając
99:20
Speaker D
bulletów, bullet pointów tak zwanych, albo żeby zaczynał z dużej litery, albo żeby robił jakieś wcięcia. My mówimy o tym, że to jest tak zwany stal guide modelu, czyli jakby charakter taki też wizualny, behawioralny modelu. Doszlifujemy, jak on ma się zachowywać, jak ma odpowiadać i tak dalej. czy ma odpowiadać z dużej litery, tak jak angielskie, czy czy po dwukropu z małej. I ponownie testujemy modele, czyli tych testów jest bardzo dużo. Sprawdzamy cały czas, czy model poprawia swoje zdolności
99:51
Speaker D
kognitywne i ostatnim etapem jest etap uczenia przez przez nadzorowocie
99:51
Speaker E
przez wzmocnienie, czyli to jest reinforcement learning, czyli ten RL,
99:51
Speaker F
tak? tak jak ten słynny RL, który gdzieś pojawił się w razem z pracą właściwie Open eye, dlatego że Open ey jak czyta się książkę Richarda Satona na temat taką Biblię na temat uczenia przez wzmocnienie to pojawia się właśnie w jednym z z rozdziałów uczenia przez wzmocnienie właśnie PPO i ona była wprowadzona przez Microsoft
100:29
Speaker F
i Microsoft nie Microsoft Microsoft tylko Open e i Open e wszystkie swoje modele od dawna stosował tą metodę i to jest jedna z metod, która jest bardzo pamięciożerna i jakby taka bardzo ciężka, czyli mamy tam w treningu aż aż cztery modele, które mają swoje funkcje. Czyli to jest model, który się nazywa policy model, który jest uczony aktualnie, czyli to jest model polityki. Drugi model jest modelem, z którego startowano i patrzy się, czy ten model polityki
100:59
Speaker F
daleko nie odbiega od modelu startowego, czyli czy na przykład nie zaczął odpowiadać w sposób preferowany, czyli na przykład jeżeli ja mówię dziękuję i model zauważył, że dziękuję daje nam pozytywny sygnał, to dlaczego nie mówić cały czas dziękuję? Czyli jeżeli ty zadasz mi pytanie ile jest 2 + 2, a ja odpowiem cztery i zacznę pisać dziękuję, dziękuję, dziękuję, dziękuję, to model jest nagradzany. W związku z tym patrzymy, czy te trajektorie, które generujemy z modeli za bardzo nie
101:29
Speaker F
odbiegają znowuż dystrybucją dystrybucją od modelu pierwowzoru. I mamy jeszcze dwa dodatkowe modelów PPO w modelu PPO, które są modelami reward, reward model, czyli on ocenia, mówi tak naprawdę do agenta jaka jest oczekiwana nagroda wygenerowania odpowiedzi, czyli czy dobrze ten model wygenerował tą odpowiedź. I kolejnym kolejnym elementem jest tam taki model, który się nazywa value model. I to są bardzo ciężkie metodyki i Deepsik wprowadził taką metodykę, które
102:05
Speaker F
świat pokochał. To się nazywa GRPO, czyli grup No i teraz wyleciało mi to, zaraz mi się przypomni. GRPO policy optimalization to jest group relative. Dobrze, czyli obniżył znowuż oczekiwania odnośnie sprzętu w stosunku do tego treningu.
102:05
Speaker A
On, bo miał ograniczenia hardware,
102:05
Speaker B
tak? I oni, oni mieli ograniczenia rzeczywiście i wprowadzili taką metodę. Ona jest modyfikacją takim takim bym powiedział zebraniem różnych innych metodyk, bo to jest taka metodyka, która się nazywa Monte Carlo, polegająca jeszcze na tym właśnie łańcuchy markowe tam są i tak dalej, ale GRPO wprowadzono i usunięto dwa, właściwie trzy modele z przyżych czterech. Yyy, usunął dwa modele, natomiast już teraz yyy w tych pipelinech usuwa się nawet trzy modele, czyli mówi o modelu, który się nazywa reward model. to zastosowano tutaj zastosowano regułowe yyy kryteria oceny i wyrzucono dodatkowe dwa y elementy, czyli value model i teraz się wyrzuca również ten model, z którego się wychodziło,
103:22
Speaker B
także y wyszczuplono to i robimy RLA. I tutaj ciekawa rzecz jest taka, że uczymy na zadaniach polskich, matematycznych modelu ogólnego, bo Bielik jest modelem ogólnym i model, który jest uczony na matematyce poprawia jakość kognitywną modelu we wszystkich właściwie benchmarkach. Czyli zauważyliśmy, że trening nawet na matematyce, na samej matematyce, gdzie model ma pomyśleć i rozwiązać zadanie matematyczne, poprawia zdolności modelu nawet w pisaniu opowiadań.
103:22
Speaker C
Ciekawe.
103:22
Speaker D
I to jest koniec. Słuchaj, ty opowiadasz mi o modelach językowych, także o tych, który które o tym, który tworzysz obraz. Mam wrażenie, że ty widzisz o czym mówisz, nie? że ty mi pokazujesz, że tu się coś dzieje. A ja często słyszę, że to jest czarna skrzynka, w której nie do końca wiadomo co się dzieje. To ile jest w tym prawdy? Ile ty dokładnie widzisz i wiesz ucząc i trenując i tworząc i pisząc polski model językowy? A ile tam jest czego? Ile tam jest niewiadomej? Ile tam jest właśnie
104:31
Speaker D
jak bardzo to jest czarna skrzynka?
104:31
Speaker E
To jest dobre pytanie. Z punktu widzenia matematycznego my wiemy wszystko, bo yyy wiemy jaka to jest funkcja, jaka funkcja modeluje ten yyy ten model. Pojawia się problem z tym, żeby yyy czyli funkcje znamy, czyli szkielet funkcji, natomiast funkcja jest uzupełniona o parametry, czyli funkcja jest optymalizowana i są te parametry. I teraz my kiedyś w machine learningu wiedzieliśmy o wiele więcej. te modele były prostsze i mogliśmy się dowiedzieć
105:03
Speaker E
skąd, dlaczego tak jest. Czyli to było podstawowe pytanie w
105:03
Speaker F
Dlaczego tak jest?
105:03
Speaker A
Dlaczego tak jest? Dlaczego tak jest?
105:03
Speaker B
I to było w machine learningu. Wprowadziliśmy kilka metod, które pozwalają nam powiedzieć, że ponieważ ten ta cecha ma takie takie takie jakby charakterysty to ten model przewiduje tak i tak. skomplikowało się strasznie w momencie, kiedy powstały dość skomplikowane struktury, transformery, bardzo dużo parametrów i to jest złożona struktura, czyli tak,
105:39
Speaker B
taki model językowy składa się na przykład z 50 warstw Transformera. One są jeszcze też, tak powiedziałem, dość skomplikowane, bo tam jest ten moduł atencyjny. Jeszcze dochodzą jeszcze dodatkowe yyy zmiany, czyli mamy tak zwaną architekturę MOE, czyli mamy tak zwanych ekspertów w środku i tak dalej. I to się skomplikowało. To jest pierwsza rzecz, czyli bardzo trudno nam wyjaśnić albo odpowiedzieć na pytanie inne. Dlaczego model tak myśli? To jest pierwsza rzecz, czyli dlaczego model
106:12
Speaker B
wygenerował to w taki i w taki sposób, dlaczego on tak myśli? I drugie pytanie. Czy to co on myśli to jest rzeczywiście to czym on o czym on myśli? Czy nie ma ukrytych intencji intencji w środku? Czyli on działając w danym środowisku może realizować cele zupełnie inne niż w innym środowisku. Badania Antropika pokazują, że są takie przypadki i praca opublikowana całkiem, całkiem dobra, że modele mogą ukrywać swoje intencje w zależności od środowiska, czyli mogą realizować
106:49
Speaker B
zupełnie inne cele. Więc ja jestem wielkim zwolennikiem znowuż tego, co się dzieje w Polsce. Wyjdę na dużego patriotę, ale tak jest. Mówimy o instytucji, która zaczyna rozwijać chyba na Politechnice, jeżeli nie mylę, warszawskiej lub na Uniwersytecie Warszawskiej, jeżeli chodzi o wyjaśnialność w EAu, mówimy o tutaj o Przemku Biecku.
106:49
Speaker C
Mówisz o Politechnice Warszawskiej Bartosz Noskręcki między innymi. między innymi tam też, ale tak, ale Przemysław, profesor Przemysław, że tak powiem, nazwie go po imieniu,
107:26
Speaker D
dowodzi tą ekipą i to jest rzecz, która uważam, że jest kluczowa obecnie i super, że to się dzieje w Polsce, która jest brakującym ogniwem do tego, żeby sztuczna inteligencja zaczęła interakcję ze światem rzeczywistym. Bo jeżeli my nie wiemy albo jesteśmy opóźnieni w tym, żeby wyjaśniać jak inteligencja w środku żyje, to stracimy kontrolę nad sztuczną inteligencją, bo nie będziemy znali ich procesów. Jeżeli dodamy do tego jeszcze to, o czym mówiłem
108:02
Speaker D
podczas AGI, damy jem jej umiejętność samouczenia się, to całkowicie stracimy kontrolę nad sztuczną inteligencją. Dlatego, że dzisiaj my uczymy jako ludzie sztuczną inteligencję. My ją testujemy i mamy jakiś kontrolę nad sztuczą inteligencją. Jeżeli damy sztuczce inteligencji po pierwsze a się samo rozwijać, dodatkowo bez wiedzy jak się ona jak myśli i o czym ona myśli, dać jej interakcję ze światem zewnętrznym, to jesteśmy na dobrej drodze, żeby całkiem nieźle
108:32
Speaker D
skończyć. A to ciekawe bardzo, bo zobacz tutaj było bardzo wielu mądrych ludzi w tym studiu, którzy opowiadali o sztucznej inteligencji, istotnie ją rozumiejąc i pięknie nam to tłumacząc, ale jeszcze nigdy tutaj nie było człowieka, który rzeczywiście no jakby ją buduje, prawda, pisze, no trenuje. Ty jesteś pierwszą taką osobą. Czy ty patrząc do środka modeli językowych, szczególnie tego, który tworzysz, dobrze, że mocno siedzisz, bo to jest pytanie normalnie byś spadł z krzesła,
108:59
Speaker D
jeśli chodzi o naiwność być może tego pytania, ale chcę, żeby ono właśnie tak zarziało. Czy ty tam w środku widziałeś świadomość?
109:10
Speaker D
Ja jestem w tej ekipie, która patrzy na to bardziej matematycznie. Nie potrafię do końca zdefiniować czym jest świadomość.
109:28
Speaker D
Ja jestem jakby z innego bieguna, ponieważ ponieważ sztucznej inteligencji, sztuczna inteligencja obecnie to jest antro, to jest tak naprawdę nadanie jej cech jakiś ludzkich. Ja uważam, że super inteligencja w ogóle tego nie potrzebuje. To jest pierwsza rzecz. Czyli jeżeli będziemy patrzeć przez klatkę doświadczeń ludzkich, w ogóle przez naszą materię, czy na przykład była taka dyskusja, czy sztuczna inteligencja tam odczuwa ból, czy potrzebuje odczuwać ból i tak dalej,
110:03
Speaker D
po co sztucznej inteligencji jest odczuwanie bólu w ogóle? To są takie doświadczenia, które nam są potrzebne, żeby przeżyć.
110:03
Speaker E
I to jest zupełnie inna funkcja celu dla sztucznej inteligencji i dla nas.
110:03
Speaker F
To znowu ten błąd człowieka, który narzuca swoje spojrzenie czemukolwiek innemu.
110:03
Speaker A
Tak. Dlatego yyy czy ona tam myśli, czy ma świadomość, czy ona potrzebuje jakiejś golemowskiej, że tak powiem, świadomości lemowskiej. Y ta maszyna, ja nie wiem, ja to ja na to patrzę dzisiaj jako na matematykę. Interesują mnie te tematy. Okej, może coś tam jest, ale ja dzisiaj tego nie widzę w taki sposób, w taki sposób.
110:32
Speaker B
Rozumiem, rozumiem. Rzeczywiście, bo to nie musi tak być, że że yyy że te nasze ludzkie kryteria, które my na przykład już nie mówiąc o tym, że to jest rozmyte kryterium, świadomość czym jest, czym nie jest świadomość, przecież tych definicji mnóstwo, że to może po prostu będzie niepotrzebne. To może być, to może być wielkie wow. to może przerosnąć
110:58
Speaker B
nasze oczekiwania i wyobrażenia i nie być świadome albo w ogóle, bo po prostu nie ta kategoria, nie potrzebować tego.
110:58
Speaker C
Ja ja myślę, że y być może sztuczna inteligencja będzie miała swoją formę świadomości i ona będzie zupełnie inna, zupełnie inna niż ta świadomość,
110:58
Speaker D
przystwajalna przez nas. Znaczy my tego nie pojmiemy nawet. My, my dzisiaj mówimy, ja o tym też mówiłem, o tych latent spaceach i o tym wewnętrznym świecie modelów, modeli językowych, że one dzisiaj już rozmawiają w w takim w takim swoim świecie, to wszystko co leci w środku Transformera to są to jest po prostu operacja na wektorach, bo to są operacje na macierzach, ale tak naprawdę to są operacje na elementarnych wektorach. dlatego że tekst na początku jak wchodzi do modelu językowego jest tokenizowany i każdy
111:30
Speaker E
dzielone na fragmenciki
111:30
Speaker F
tak dzielone na fragmenciki. Już teraz nie będziemy dochodzić do tego co to są za fragmenciki. To nie są wyrazy. To nie są wyrazy. Kiedyś były wyrazy, teraz to są efektywnie jest zrobić z tego z lepki liter fragmenty
111:57
Speaker A
jakieś fragmenty, tak? To są jakieś powiedzmy fragmenty, bo to jest dość istotne i ten fragment, który nie oznacza nic, nic dla człowieka, może być to na przykład polska i fragmentem z tego jest na przykład po albo pol albo pols.
111:57
Speaker B
I to jest token,
111:57
Speaker C
który w języku polskim nic nie oznacza.
111:57
Speaker D
W świecie modeli językowych on jest modelowany. na podstawie tekstu, który zobaczył i relacji w tekst w tekście, który zobaczył w czasie pretreningu. I to dla niego coś oznacza. To jest modelowane przez po pierwsze przez jakieś wektory takie osadzeń, które mówimy, czyli reprezentacja semantyczna takiego, czyli znaczeniowa takiego wektora. I teraz mamy pol i on ten wektor ma długość 4000 5000 6000 liczb. I każda ta liczba, każda ta liczba coś oznacza, jakąś cechę. I to nie jest tak, że oznacza to przymiotnik rzeczownik. być może na 128 pozycji jest to, że to jest rzeczownik albo często
113:08
Speaker D
jest używany pol w rzeczowniku, ale trzeba sobie wyobrazić, że to jest zamodelowana przestrzeń wielowymiarowa, czyli pol jest w 6000 wymiarach i ta albo 4000 wymiarach i ta wszystkie te tokeny, które są w słowniku, one coś opisują świat właśnie w tej przestrzeni tysiąca wymiarów. jakimiś cechami i dla nas my takich cech w ogóle nie znamy.
113:08
Speaker E
No właśnie to jak bogaty jest świat wewnętrzny sztucznej inteligencji niewyobrażalnie bogaty dla nas to są pols. No dobra, znaczy to nie to jest więcej niż pols. To jest to jest więcej niż cztery litery oczywiście, bo nawet my to możemy sobie podciągnąć pod fragment słowa polska i mnóstwo sobie różnych skojarzeń natychmiast stworzyć, ale i tak nie będzie ich aż tyle.
113:44
Speaker F
4000 6000 6000. Tak. pytanie, co się z takich tokenów jeszcze kiedyś może takich wektorów
113:44
Speaker A
jeszcze stworzyć.
113:44
Speaker B
Ja myślę, że w ogóle to jest znowuż taka koncepcja, która myślę, że w ogóle kwestia tokenizacji to jest ślepa uliczka, że to strasznie y y też ograniczyło w ogóle sztuczną inteligencję. To jest jakby myślę, że mogę na 90% z 90% prodctwem założyć się, że przyszłe lata będą zmieniały modele AI z tokenizacji na token free. Takie podejście, czyli nie będzie w ogóle tokenizacji, tylko reprezentacja będzie zupełnie inaczej tekstu robiona i tak dalej,
114:17
Speaker C
ale jeszcze nie wiemy jak to
114:17
Speaker D
są już jakieś prace, już jakieś kierunki, ludzie o tym mówią. To jest jakieś ograniczenie od razu na wstępie, że my coś y dzielimy za pomocą tokenizera. Tokenizer już jest elementem, który jest wytrenowanym z jakimś bajasem czy z jakimś y z jakimś jakimś bym powiedział w błędem poznawczym świata. I my na samym początku już dzielimy ten tekst. W ogóle wybór tokenizera do modelu językowego, to jest kolejna pewnie temat, który moglibyśmy ciągnąć, jest elementem kluczowym. Elementem kluczowym właśnie jak ten tekst będzie dzielony. I tu jest kilka znowuż wymiarów. Po pierwsze tekst to nie tylko tekst taki pisany w
115:30
Speaker D
książkach. To jest język programowania. To jest inny wymiar. To jest język chiński, język japoński. jak te modele patrząc na znaczek japoński i jednocześnie ten sam model patrząc na tokeny polskie jest w stanie tym wszystkim oczywiście to jest kwestia znowuż datasetów rozkładów prawdopodobieństw relacji między tokenami i tak dalej tak i modelowaniem i kompresowaniem tej całej wiedzy ale to jest właśnie że język język ludzki idąc już głębiej dalej to jest każdy język
116:08
Speaker D
wprowadza coś nowego i każdy język japoński chiński koreański polski wprowadza pewne cechy, które opisują ten świat. Więc mówię, świat wewnętrzny modeli językowych jest bardzo ciekawy, bo jest wielowymiarowy. Dla nas trudna jest percepcja w ogóle myślenia. W czterech, znaczy w trzech wymiarach to okej, w czterech to jeszcze się da, a w pięciu to już w ogóle się nie da prawie że, a tutaj mówimy o tysiącach wymiarów. I teraz jak zrozumieć to, co model myśli w kontekście wejścia właśnie w agi, w
116:50
Speaker D
super inteligencję. Także to jest mnóstwo pracy przed ludźmi, którzy będą badać bezpieczeństwo i to w jaki sposób te modele yyy działają.
116:50
Speaker E
A co sztuczna inteligencja może zrobić w biotechnologii? I widzisz, bo yyy Jacek Dukaj siedział na tym fotelu i on on pamiętam wyraźnie to już było dobrych kilkanaście miesięcy temu w jednym z poprzednich odcinków programu Diacalia polecam właśnie zwracał uwagę na biotechnologia, na biotechnologię. I oczywiście my wszyscy myślimy teraz tak
117:19
Speaker E
nawet pod kątem inwestycyjnym, że niezwykle popularne są firmy, firmy, które rozwijają sztuczną inteligencję, akcje tych spółek rosną. Bardzo popularne są firmy, które inwestują w komputery kwantowe. Ich akcje, ich notowania rosną. Być może biotechnologia to jest taka dziedzina, której jeszcze trochę nie doceniamy. Może być za chwilę niezwykle popularna, ważna. Co takiego się dzieje w dziedzinie biotechnologii na styku właśnie biotechnologii ze sztuczną inteligencją w kontekście też
117:50
Speaker E
na przykład tego, że jest nagroda Nobla za połączenie tych dwóch dziedzin.
117:50
Speaker F
Właśnie chciałem powiedzieć, że pierwszą rzeczą, która która się pojawiła, no to jest nagroda Nobla za coś, za co nagrody Nobla do tej pory nie dawano, czyli za matematykę tak naprawdę, czyli za sztuczną inteligencję, bo
117:50
Speaker A
a to była nagroda Nobla w dziedzinie jakby biologicznej, w sensie life science chyba. Y tak, bo to rzeczywiście była y chemia i biologia. Y
117:50
Speaker B
biologi z chemii i biologii. A dostali informatycy. Tak, tak, tak. Bo, bo, bo to rzeczywiście były dwie, dwie prace. Pierwsza była oczywiście Deep Mind Alpha Fold, słynny, czyli foldowanie białek. I tutaj Alpha Fold, Deep Mind rzeczywiście bardzo mocno pracuje od lat nad tematem w ogóle biotechnologii. To zaraz do tego dojdę. A druga praca to była praca rzeczywiście typowo matematyczna, bo to było sieci Bolsmana i Hintona, czyli propagacja wsteczna, czyli taki podstawowy algorytm, który jest obecnie używany do optymalizacji
118:58
Speaker B
sieci sieci neuronowych, czyli mówimy o propagacji wstecznej, czyli z grubsza polega to na tym, że na końcu sieci neuronowej liczymy funkcję straty i propagujemy błąd wewnątrz sieci neuronowej do tyłu, obliczając po prostu pochodne, wielowymiarowe pochodne, czyli takie zwane jakobiany wewnątrz wewnątrz sieci i i liczymy gradient i jakby liczymy ten błąd, który musimy propagować do tyłu do tyłu sieci. Jest to dość prosta idea. Ona brzmi bardzo skomplikowanie. Nie jest to nic
119:33
Speaker B
skomplikowanego. Matematyka sobie z tym świetnie radzi i oponowaliśmy to. Czyli to były dwie nagrody Nobla i to był 2024 rok. To był taki przełom chyba dla sztucznej inteligencji w ogóle to widać. O ile 2021 wprowadzenie GPT 2023 to już lepsze modele 2024 i te dwie nagrody Nobla to jest coś coś niezwykłego, bo to rzeczywiście pokazuje, że sztuczna inteligencja to nie jest już tylko coś co stoi w przededniu kolejnej zimy sztucznej inteligencji, czyli raczej się to będzie rozwijało niż będzie
120:10
Speaker B
stagnacja. Y, zresztą ja nie widzę na razie możliwości stagnacji. Yyy, i to jest pierwsza rzecz. Y, Deep Mind rzeczywiście był takim pionierem, który zaczął mówić o tym, że chc rozwiązać problemy biologiczne świata i chcę zamodelować świat biologii, czyli taki world model, ale biologiczny. I Deep Mind rzeczywiście dostał nagrodę za Alfa Folda. Alpha Fold w ogóle Alpha Fold, ale tam jest w ogóle bardzo ciekawie opowiedziana historia pierwsze alfa folda, ale też tych prac
120:50
Speaker B
wcześniejszych, czyli całego uczenia przez wzmacnianie Alfa Go, Alfa Zero i tak dalej, i tak dalej. Więc dużo się tam prac dzieje wokół tego i natomiast dzisiaj widzimy, że biologia jest trudnym w ogóle tematem. Pewnie jest dużo takich tematów, czyli fizyka, fizyka kwantowa i tak dalej. Natomiast biologia jest o tyle specyficzna, że jest bardzo dużo tematów do zrobienia. Czyli z jednej strony mówimy, że że AI tutaj pomaga, ale ja widzę duże opóźnienie w obszarze biologicznym używania EAI.
121:30
Speaker B
Znaczy mam takie organityczne doświadczenia, kiedy jestem na konferencji, dużej konferencji badań klinicznych i tam jest trakajowy, mówią ludzie rzeczy takie, które się mówiło w 2021, 2022 i to nie jest tylko moja opinia. trck, w którym na każdy wykład nie można się dostać na wykład, czyli po prostu jest tylu chętnych, że są zamykane drzwi. To była konferencja w Niemczech, więc Ornign, więc oni zamykali po prostu drzwi, nie wpuszczali, żeby nie przeszkadzać i ludzie odchodzili z
122:09
Speaker B
kwitkiem. Czyli dużo jest zainteresowania jednocześnie jeszcze mało tego jest, bo tutaj trzeba być sprawiedliwym. Bardzo dużo firm ma rozwinięte, tylko to jest duża przestrzeń jakby do działania na przykład w zakresie Drag Discovery czy
122:09
Speaker C
Tak. Tak. I teraz my zajmujemy się właśnie tym obszarem drag development, czyli widzimy, że jest bardzo duże zainteresowanie firmami i optymalizacją procesu odkrywania leków. Dlatego, że proces odkrywania leków czy wprowadzania na rynek w ogóle leków jest procesem bardzo długotrwałym i bardzo, ale to bardzo kosztownym. I firmy mając już jakieś swoje powiedzmy molekuły i tak dalej szukają różnych sposobów na to, żeby na przykład powiedzieć taki case na przykład, żeby co zrobić, jeżeli mam jedną molekułę, którą mam zarejestrowaną, to jak poprawić na przykład leczenie jakiegoś raka wykorzystując jakąś inną molekuę, czyli nie chcą jakby od nowa odkrywać molekuł, tylko chcą połączyć dwie, które spowodują, że terapia będzie
123:30
Speaker C
bardziej skuteczna. I to jest też proces bardzo długi researchowy, który wymaga połączenia po pierwsze bardzo dużej ilości źródeł danych. To są dane badania, to są bazy danych z zakresów publikacji medycznych, to są najnowsze publikacje, konferencje, to są badania kliniczne, to są czyli to są źródła wiedzy, to są modele, które muszą wykonać jakieś operacje właśnie na na komórce czy czy na na jakieś innej, bym powiedział, skali biologicznej. Więc pojawia się duża przestrzeń do
124:12
Speaker C
optymalizacji tych procesów, czyli mówimy, jeżeli oszczędzimy 1 2 3, 5% czasu przyspieszenie, to będzie miało to ogromny wpływ na to jakby optymalizację kosztów firmy, ale to co dla nas jest ważniejsze to jest to, że możemy pomóc odkrywać coś co poprawi komfort życia ludzi. I to jest właściwie taka misja naszej firmy, że y szukamy po prostu sposobów, żeby pomóc firmom, które wprowadzają leki na rynek, zrobić to szybciej, dokładniej, odrzucić pewne hipotezy na samym starcie
124:51
Speaker C
lub pokazać im kierunki, które które powinni przebadać. Ale myślisz, że my jesteśmy u progu jakiejś drogi, która zakończy się, wiesz, znowu użyję nagłówka, wiesz, sensacyjnego nagłówka z gazety, wygraną wygraną walką z rakiem na przykład. Trudno powiedzieć, dlatego że biologia jest, ja się nie znam na biologii, to od razu powiem, bo dla mnie to było w ogóle bardzo cenne doświadczenie przejścia z różnych obszarów do świata biotechnologii. Pierwsze moje spotkanie, to ja pamiętam
125:28
Speaker C
pierwszy tydzień w ogóle pracy, to w ogóle nawet nie wiedziałem o czym y ludzie, którzy tam pracują w ogóle mówią. To był
125:28
Speaker D
mówili językiem biologii.
125:28
Speaker E
Tak, mówili językiem biologii, tam rzucali jakimiś tekstami właśnie co tam się dzieje, jakieś ligandy, nielandy i tak dalej. Ja właśnie perturbacje i transkrypcje i tak dalej. Yyy, ja byłem zatrudniony w tej firmie ze względu na to, że yyy potrzebowali osoby, która po pierwsze ma doświadczenie w zakresie budowania yyy yyy modeli językowych,
126:01
Speaker E
trenowania przez wzmocnienie, gdzieś tam w tym się specjalizuje yyy i budowania systemów agentowych. yyy i jakby y tutaj y zasiliłem tą ekipę jako y researcher od AI. Yyy oczywiście nie ma taryfy ulgowej dla mnie, że mogę biologii nie rozumieć, bo dzisiaj już poruszam się o wiele lepiej, czyli no nie rozumiem ludzie o czym mówią, a jak nie rozumiem, to pytam i jest mi łatwiej zrozumieć pewne pewne efekty, pewne rzeczy. Natomiast biologia czy biolodzy sami nie wiedzą jak odpowiedzieć na
126:37
Speaker E
pewne pytania i to jest rzecz bardzo skomplikowana, bo nawet jeżeli się spojrzy na komórkę, na modelowanie komórki to komórki są w różnych cyklach rozwojowych. patrzymy na jeden efekt. y mieliśmy teraz przez trzy miesiące siedzieliśmy nad m nad takim tematem, który był związany z opracowaniem modelu do ekspresji genów. yy po takiej operacji, której mieliśmy jedną linię komórkową i robiliśmy taki eksperyment uśpienia genu, czyli perturbacji genów przez jego takie, bym powiedział, wycięcie
127:17
Speaker E
i chcieliśmy zobaczyć w jaki sposób y y komórka się zmieni w kontekście ekspresji genów. Yyy, no dla mnie to było w ogóle szokujące, że modele językowe, modele, które budujemy ajowe, tak naprawdę mają nauczyć się modelować jakiś szum, bo jedna komórka wystarczyło, że jest w innym y w innym cyklu życia. Plus dodatkowo jest z innego wycinka tego organu, plus dodatkowo jest przez inne urządzenie badane i tak dalej, i tak dalej. Odpowiedź, ekspresja genów była zupełnie
127:59
Speaker E
inna. Porównywałem to jeden do jeden, bo zupełnie coś innego. Mimo to modele dość sprawnie uczyły się y bym powiedział rozpoznawać albo pokazywać pewne kierunki jak ta komórka się zmieni i czy potencjał przeżycia tej komórki jest czy czy nie. I
127:59
Speaker F
to jest niesamowicie szlachetna praca, bo ty szukasz wzorów w naturze.
127:59
Speaker A
Tak. Tak.
127:59
Speaker B
Tam gdzie wydawałoby się ich w ogóle nie widać. nie tylko na pierwszy, ale nawet na drugi czy trzeci rzut oka, ale okazuje się, że one tam są.
128:31
Speaker B
Tak, jesteśmy poszukiwaczami wzorów natury, tak można powiedzieć.
128:31
Speaker C
I i i piękne jest to, że że w całej tej przypadkowości jednak po prostu one tam funkcjonują. Tak, w tym szumie też mówiłem o tej roli szumu w ogóle w waju. W tym szumie coś jesteśmy w stanie znaleźć i dla niektórych linii komórkowych czy dla niektórych eksperymentów z większym prawdopodobieństwem, a dla niektórych, czyli na przykład to były komórki macierzyste, czyli to są komórki, które mogą się przerodzić
129:07
Speaker C
właściwie we wszystko. To było zadanie bardzo trudne i ja muszę powiedzieć, że to były trzy miesiące dla mnie w ogóle, które zmieniły mój sposób myślenia o AI, o pewnie o świecie, o biologii, o naturze człowieka i no były to na pewno ciężkie, ale też bardzo poułaczające miesiące pracy.
129:07
Speaker D
Powiedz mi proszę na koniec, na co ty czekasz w 2026 w kontekście badań nad sztuczną inteligencją? tak ogólnie globalnie nad jednym rzeczą. nad jedną rzeczą. Yyy, do tej pory to co mnie jedyne to będzie małe życzenie, bardzo małe życzenie, ale które uważam, że jeżeli zostanie spełnione to jest to pierwszy podstawowy krok do tego, żeby sztuczna inteligencja się rozwijała. o
130:09
Speaker D
takim wyrównaniu umiejętności modeli albo umiejętności sztucznej inteligencji. Czyli dzisiaj model językowy jest w stanie rozwiązać bardzo trudne zadanie z Frontier MAF Bartka. Pozdrawiamy Bartka. Tutaj był opowiadał o Frontier MAF. Jesteśmy w stałym kontakcie. Bartek jakby mówi o zobaczcie pojawia się nowe trudne rozwiązanie zadania matematycz nowe rozwiązanie zadania matematycznego trudnego. Czy ostatnie bardzo dużo informacji na temat rozwiązań różnych tematów bardzo
130:45
Speaker D
trudnych powiedzmy matematycznych. Natomiast modele językowe potrafią się wyłożyć na policz. No akurat to jest złe, zły przykład, ale policz liczbę r w wyrazie strawberry. I to co jest bardzo frustrujące dzisiaj w AIU to jest bardzo duża nierówność jakby kompetencji modelu. I teraz nie wyobrażam sobie, że my zdefiniujemy AGI jako coś bardzo mądrego, jednocześnie coś bardzo głupiego. Ja bym sobie życzył tego, żeby y laby popracowały nad właśnie nad wyrównaniem jakości kompetencji tego modelu.
131:28
Speaker D
żeby to był taki punkt startowy właściwie właśnie do rozwoju sztucznej inteligencji, czyli żeby były to bardzo użyteczne narzędzia. I teraz jeżeli ja porównuję rok, rok 2025 start, gdzie ja bardzo dużo koduję, nie jestem wybitnym koderem, nie jestem takim jak y Czajka czy czy cała ekipa, że są super algorytmikami, ale programuje właściwie codziennie, codziennie po kilka godzin i 2025 rok rozpoczynałem z wielkim rozczarowaniem, bo wielkie firmy mówiły, że mamy już
132:05
Speaker D
super narzędzia do kodowania. Mamy kopajloty do kodowania. Natomiast ilość czasu, którą ja poświęciłem na poprawianie błędów po sztucznej inteligencji lub zniechęcałem się po kilku po straceniu godziny na przykład z konwersacją ze sztuczną inteligencją, po czym pisałem to od zera.
132:05
Speaker E
Sam.
132:05
Speaker F
Tak, sam od zera. Powiem więcej, to to było bardzo dużo czasu, natomiast ja powiem więcej. Ostatnie trzy miesiące, kiedy byliśmy w tym w tym takim naszym problemie związanym z perturbacją, czyli z symulacją komórki i symulacją perturbacji komórki, zrobiłem taki test, o którym nikomu nie mówiłem. Jedna z biotechnolożek, bioinformatyczek chciała zrobić doświadczenie, czyli znaleźć metodę na zwiększenie efektywności modelu. jakby zwać, czyli mamy jakiś model i chcemy zwiększyć jego efektywność, podbić, że tak powiem, metryki i znając predykcję perturbacji mogła użyć odpowiednich technik sobie znanych, które doprowadziły do tego, że wynik się podniósł. Postanowiłem w tajemnicy
133:29
Speaker F
odnaleźć sposób podbicia tego wyniku za pomocą wszystkich modeli sztucznych inteligencji, jakie są
133:29
Speaker A
na rynku,
133:29
Speaker B
na rynku najmocniejszych modeli, czyli mówimy o komercyjnych modeli w wersji pro, wersji rozszerzonych z rozszer rozszerzonymi tego licencjami plus z metodami rezoningowym. które myślą trzy dni albo prawie trzy dni.
133:29
Speaker C
Tak. Żaden z nich nie uzyskał lepszego wyniku niż nie zaproponował lepszego rozwiązania niż człowiek, niż ta osoba. Powiem więcej, one nawet się nie zbliżały do tego. Powiem więcej, dużo błędów generował, jakby nie rozumiały zupełnie kontekstu biologicznego. To było trzy miesiące temu. Nie używałem wtedy jeszcze żadnych narzędzi, prawie żadnych narzędzi do kodowania. Raczej byłem sceptykiem. że a nie, bo szkoda mi czasu, zrobię to szybciej. Ostatni miesiąc to jest właściwie przepięcie się bardzo dużo, chyba 50% na kodowanie ze sztuczną inteligencją, dlatego że jakość narzędzi do kodowania podniosła się tak niesamowicie do góry,
134:49
Speaker C
że mogę z nią naprawdę robić pracę szybciej jako koder zdecydowanie i rozwiązywać niekiedy bardzo trudne zadania za pomocą tych narzędzi. Więc one idą rzeczywiście do przodu, tylko niekiedy smuci mnie to, że zadaję mu proste pytanie i ja wiem, że to jest kompletna bzdura i i chciałbym, żeby to się wyrównało w przyszłości. I tylko tylko tyle i na pewno 2026 rok będę z dużym zainteresowaniem obserwował co się zmienia. A wiem, że w lutym będzie się działo, bo co roku podczas roku
135:27
Speaker C
chińskiego dużo się dzieje. Chińczycy chcą pokazać po prostu yy, że y nie są yyy na tyle, że tak powiem, w tyle, jeżeli chodzi o rozwój sztucznej inteligencji i mamy już zapowiedzi, że w lutym będzie się na pewno działo, więc czekam na luty, później na kolejne releasy wielkich modeli od wielkich graczy też i też na pewno mogę zapowiedzieć, że w tym roku będą nowe bieliki, większe, na pewno sprytniejsze i i tak dalej, i tak dalej. My to nadal rozwijamy i będziemy rozwijać.
136:01
Speaker C
Trzymamy kciuki za Bielika i trzymamy kciuki także za zrozumienie wagi tej pracy, żeby żeby to zostało docenione i żeby nie wiem na przykład politycy jakoś łaskawszym okiem na to spojrzeli. Może jakoś wam pomogli finansując naukę w zakresie, w którym jest to wam wam akurat potrzebne. Remingi już Kinas obecnie, proszę państwa pracuje, rozwija sztuczną inteligencję i bada ją w firmie biotechnologicznej, w polskiej firmie biotechnologicznej Ingenic AI. Trenuje także polski model językowy
136:30
Speaker C
Bielik. Bardzo dziękuję za spotkanie.
136:30
Speaker D
Dziękuję.
136:30
Speaker E
To były DAia, Patrycjusz Wyżga. Kłaniam się. Do zobaczenia. Ah.
Topics:BielikChatGPTsztuczna inteligencjamodel językowypolski językbezpieczeństwo danychopen sourcebiotechnologiaRemigiusz Kinasmachine learning

Frequently Asked Questions

Dlaczego warto korzystać z polskiego modelu językowego Bielik zamiast ChatGPT?

Bielik jest lepiej dostosowany do języka polskiego, można go instalować lokalnie co zwiększa bezpieczeństwo danych, jest darmowy i nie ma limitów tokenów.

Czy można używać ChatGPT lokalnie w firmach z wrażliwymi danymi?

ChatGPT można uruchomić w chmurze prywatnej, ale nie jest dostępny do pełnej instalacji lokalnej, co może ograniczać bezpieczeństwo wrażliwych danych.

Jakie są główne zalety polskiego modelu Bielik dla instytucji takich jak banki?

Bielik zapewnia bezpieczeństwo danych, szybkość działania, brak limitów tokenów, możliwość fine tuningu oraz pełną kontrolę nad modelem dzięki lokalnej instalacji.

Get More with the Söz AI App

Transcribe recordings, audio files, and YouTube videos — with AI summaries, speaker detection, and unlimited transcriptions.

Or transcribe another YouTube video here →