ChatGPT Kullanmayı Unutun: Yapay Zekanın Gerçek Sırrı (… — Transcript

Yapay zekanın temel kavramları LLM, RAG, LoRA ve quantization gibi terimler sade ve derinlemesine anlatılıyor.

Key Takeaways

Yapay zeka sadece ChatGPT gibi modellerden ibaret değil, temelinde LLM ve çeşitli teknik altyapılar var.
Token ve embedding kavramları, dil modellerinin temel yapı taşlarıdır ve model performansını doğrudan etkiler.
Quantization ve LoRA gibi teknikler, yapay zeka modellerinin verimliliğini artırmak için kullanılır.
Günümüzde yapay zeka, iş dünyasında yaygın olarak kullanılmakta ve herkesin temel kavramları bilmesi gerekiyor.
Videoda verilen bilgiler, yapay zekanın teknik terimlerini anlamak ve kullanmak isteyenler için kapsamlı bir rehber niteliğinde.

Summary

Yapay zekanın tarihsel gelişimi ve bilgisayar teknolojisiyle paralel evrimi anlatılıyor.
LLM (Large Language Model) kavramı ve çalışma prensipleri detaylı şekilde açıklanıyor.
Token, embedding, transformer mimarisi gibi temel yapay zeka terimleri sadeleştirilerek anlatılıyor.
Quantization, 8 bit, 16 bit gibi model optimizasyon tekniklerine değiniliyor.
RAG (Retrieval-Augmented Generation) ve vektör veri tabanları gibi ileri seviye yapay zeka teknolojileri tanıtılıyor.
LoRA (Low-Rank Adaptation) yöntemi ve uygulama alanları örneklerle açıklanıyor.
Yapay zekanın günümüzde iş dünyasında ve günlük hayatta kullanımı ve önemi vurgulanıyor.
Model parametreleri, context window, KV cache gibi teknik detaylar örneklerle anlatılıyor.
Videoda yapay zekanın altyapısal mantığını anlamaya yönelik 30 sayfalık bir sunumun özeti sunuluyor.
Teknoloji dünyasında yapay zeka terimlerinin yaygınlaşması ve doğru anlaşılması için temel bilgiler veriliyor.

Chapters

Full Transcript — Download SRT & Markdown

Speaker A

Belki benim eşimde olanlar hatırlar. Bundan yıllar önce ilk bilgisayarlar çıktığında, evlere girmeye başladığında ne vardı? İşte multimedya vardı.

Speaker A

Multimedya bilgisayarlar vardı. İlk evimize girdikten bir süre sonra 94'lü 95'li yıllarda multimedya diye bir şey çıktı. Mesela bir ses kartı olması, bir CD-ROM olması, gerekirse bir ekran kartı olması gibi şeyler artık toplama bilgisayar evine alan herhangi birinin bildiği tabirlerdi. Yani bunu artık bir

Speaker A

şekilde herkes kanıksamıştı ve öğrenmişti. Bu doğrultuda, yani böyle işte benim yaşlarımda bilgisayar kullanmış herhangi biri Chrome dediğinde bir şey anlam ifade eder. Ses kartı dediğinde bir şey anlam ifade eder.

Speaker A

Ekran kartı dediğinde bir şey anlam ifade eder. Bugün bilgisayar kullananların, bilgisayarda oyun oynayanların hemen hemen ekseriyeti hepsi

Speaker A

RAM nedir? Neye yarar? Ne işe yarar? Hani çok detay bilmese de mantıken bilir. İşte ekran kartı neye gerek var? Nasıl bir ekran kartı olmalı? Ekran kartının modellerine kadar oyun oynayanlar bilir ama genel olarak da insanların bu konu hakkında bir fikri vardır. Yani

Speaker A

teknolojiyle az çok aşina olanlar telefonunuzdaki mesela RAM'i biliyorsunuz, işlemciyi biliyorsunuz. Snapdragon deyince bir şey ifade edebilir birçoğunuza. Qualcomm deyince bir şey ifade edebilir. Biraz teknolojiyi bilenler bunları artık biliyor. Zaman değiştikçe telefon işlemcilerini öğrenmeye başladık.

Speaker A

Günümüze geldiğimizde yapay zeka dünyayı kasıp kavuruyor. Herkes bir şeyler yapmaya çalışıyor. Dünya üzerindeki firmaların %88'i yapay zekayla bir şey yapmaya çalışıyor. Sadece bunun %6'sı elle tutulur, kar eden bir şey yapmış durumda şu an, bu McKinsey raporunun söylediği. Ama herkes uğraşıyor. Şimdi

Speaker A

bugüne geldiğimizde LLM lafı geçtiğinde herkes işte bunun duymuştur mutlaka. LLM teknoloji dünyası. LLM ne? Large Language Model, yani büyük dil modeli. [homurdanır] Şimdi bunları anlattığımız bazı eğitim setleri oldu. Bunların linki, yani bu şu an videoyu izlediğiniz, bir

Speaker A

oynatma listesi var. Orada diğer videoları da görebilirsiniz. Burada birazcık daha büyük dil modellerinin derinliklerine, derin kuyularına ineceğiz. Yani büyük dil modelini eğitmek nedir? Büyük dil modelleri neye göre çalışır? İşte quantization nedir? 8 bit, 16 bit ya da LP16/32. Bunlar

Speaker A

nedir ya? Birçok böyle dil modeli dendiği zaman derinlemesine bir tık gittiğinizde karşınıza çıkan tabirleri olabildiğince basitleştirerek anlatmaya çalışacağım. İlk başta verdiğim bilgisayar CPU RAM örneği vardı ya, günümüze geldiğimizde aslında bu dil modeli ve yapay zekanın bu detaylarını en azından yüzeysel olarak bilmek

Speaker A

seviyesine doğru geliyor. Gelmek üzere. Bu videoyu izlediyseniz bundan bir süre sonra bu anlattıklarımı sokaktaki herhangi birinin konuştuğunu duymaya başlayacaksınız. Ama o konuşanlar da derininde ne yaptığını, ne mantığa yaradığını çok bilmeyecek. Ama dillerinde quantizationlar, 8 bit'ler, 16 bitler vesaireler, böyle işte

Speaker A

LLM'ler, RAG'lar, vektör veri tabanları filan, bunları hep böyle yani en böyle sokaktaki insandan falan duymaya başlayacaksınız çok yakın zamanda. Teknoloji dünyasında zaten herkes bunları konuşuyor ama teknoloji dünyasında konuşanlar da bunların anlamının ne işe yaradığını, teknik tabirini bilmiyor. Sadece böyle kulaktan

Speaker A

dolma bilgilerle konuşuyorlar birçoğu da. Bu kulaktan dolma bilgilerin altını biraz dolduracağız bu videoda. Bununla beraber hiç bilmeyenlere, hiç duymayanlara da bir şey ifade edecek bu video. Dolayısıyla yapay zeka artık herkesin bilmesi gereken bir şey. Bu yapay zeka prompt yazmayı bilmekten

Speaker A

çıktı. Artık prompt yazmayı zaten artık biliyor olmanız lazım. Prompt'un ne olduğunu biliyor olmanız lazım. Bir şeyler üretebiliyor olmanız lazım. Yapay zekayı zaten aktif olarak bütün işlerinizde kullanıyor olmanız lazım. Şu anda bunu geçtik. Şimdi daha ileri seviyeye gidiyoruz. Yaptığımız işin

Speaker A

altyapısındaki mantığı çözmemiz ve idrak etmemiz gerekiyor. Bunun için bir sunum hazırladım. 30 sayfalık bir sunum. Bunu olabildiğince hızlı ve eğlenceli bir şekilde anlamlandırarak sizlere anlatmaya çalışacağım. Şimdi sunumumuza doğru geçerken sizlere buradan bu konuları bakalım. Neymiş, ne değilmiş anlamaya çalışalım. Şimdi 4. slayttan

Speaker A

başlamışız. Geri gelelim 1'den başlayalım. Evet. Ne demiştik? LLM. LLM deyince işte büyük dil modeli. Bunun ne olduğunu bilmiyorsanız, hiç duymadıysanız daha önce,

Speaker A

şimdi kabaca anlatacağım ama dediğim gibi oynatma listesinin diğerlerine bakabilirsiniz.

Speaker A

LLM, Large Language Model, büyük dil modeli. Yani aslında yapay zeka dediğimiz şey LLM'den ibaret değil. Yapay zeka hayatımızda belki 50 yıldır, 60 yıldır var. Yani hani hesap makinesi bile bir yapay zeka. Ama günümüzde yapay zeka dediğimiz zaman aklımıza gelen şey

Speaker A

ne? İşte büyük dil modeli, yani ChatGPT veya Gemini veya Claude veya neyse onların modelleri. Tamam mı? Şimdi burada model nedir? Bunlara da değineceğiz. Hepsini anlatacağız. Dolayısıyla ama günümüzde yapay zeka dediğimizde aklımıza gelen şey bunlar.

Speaker A

Bu devasa firmaların, firmaların LLM tabanlı ürettikleri multimodal yapay zeka modelleri diyelim. Şimdi LLM aslında bizim böyle direkt LLM deyip geçtiğimizde öyle bir şey değil. Yani LLM dediğimizde token nedir? İşte Q4 nedir?

Speaker A

Embedding nedir? Transformer nedir? RAG nedir? MPU nedir? GPU nedir? QV CAS nedir? Vector database nedir? LoRA nedir? Bakın burada bir sürü tabir var.

Speaker A

Şimdi bu videoda bunların hepsi sizin kafanızda oturacak ve bunları böyle bir bağlamsal olarak anlamlandırmaya başlayacaksınız. Bunların hepsini görüşeceğiz beraber, yani değerlendireceğiz. Şimdi bu dil modellerini, yani chat yaptığımız ChatGPT gibi, Claude gibi şeylerde bir metin veriyorsunuz. Verdiğiniz metni

Speaker A

tokenlara dönüştürüyor. Token bir kelime olabilir, iki kelime olabilir. Bu modelin tasarımına göre değişiyor. Burada eğer vektöre dönüştürüyorsunuz bunları. Ne olursa olsun vektör dediğimiz sayılar, 0,111, 0,101, böyle sayılara dönüştürüyorsunuz. Bir data setine çeviriyorsunuz. Tamam mı? Bunu aslında

Speaker A

bunları da şimdi ilerleyen bölümlerde anlatacağız. Vektöre çeviriyorsunuz. Yani sayılar diyelim. Ondan sonra transformer mimarisi var. Bu bir algoritma. Ve transformer mimarisi bu vektörlerin en yakın yanını bulmaya çalışıyor. Birazdan anlatacağım. Sonraki token'ı tahmin ediyor ve cevap veriyor size. Aslında LLM böyle bir

Speaker A

zincirleme reaksiyondan oluşan bir sistem. Şimdi token kelime değil aslında. Modelin bir parçası. Mesela bugün hava nasıl dediğiniz zaman, bugün, hava, nasıl, soru işareti. Bunların her biri bir token.

Speaker A

Token sayısı işte maliyet, kontekst, kullanım, hız hususunda doğrudan etkili bir şey. Token token çok duyuyorsunuz ya. Token öğrendiniz. Bakın şimdi mesela. Süper değil mi? Şimdi gelelim diğer bir konuya. Kelime sayısını, kelimeyi sayıya nasıl dönüştürüyor peki?

Speaker A

Mesela token sigorta diye bir kelime olsun. Tamam mı? Buna bir ID üretiyor ve vektör olarak buna böyle bir sayı kümesi üretiyor. 0, 12, -0, yani bu daha önce tanıdığı bir kelime. Yani bu kelimenin mesela sigortanın bir vektörü var, embedding'i var. Buna yaklaşıyor. O rakamlar birbirine benziyor. Mesela sigorta, sigorta diye bir kelime yok da örnek olarak söylüyorum. Sigorta ile sigorta'nın birbirine benzemesi çok yakınlaşıyor rakam olarak. Yani şu vektör embedding yapıyoruz ya, 0,12, 0,41. Bu bildiğimiz RAG'tan bahsetmiyorum şu an.

Speaker A

RAG'a geleceğiz. Bu dil modelinin çalışma mantığı. Tamam. Bunu sigortaya bir ID verip vektöre çeviriyor. Aslında bunların her biri bir, biraz da anlatayım onu. Sırayla geçelim onlara.

Speaker A

Ondan sonra burada kelimeyi sayıya böyle çeviriyoruz. Tamam mı? Matematiksel uzayı yani kelimenin aslında. Şimdi transformer ve attention diye bir mekanizma var. Bu ne yapıyor? Banka, müşteri, kredi, başvuru, onay gibi mesela kelimeler var diyelim.

Speaker A

Tamam mı? Bunu üretirken bunlar kelimelerin her birini bir tokena dönüştürüyor ve vektör veri tabanında banka kelimesinden sonra en çok gelen vektör neymiş? Sayıya dönüştürdü ya kelimeleri. Bunları da birbirine bağladı. O bankadan sonra gelecek olan en yakın sayısal değeri yüzdesel olarak b

Speaker A

buluyor ve onu tahminleyerek öne çıkartıyor. Parametre sayısı. Yani bunların hepsi bir parametre diye düşünün. Milyarlarca parametre var. Yani kelimeleri parametrelere dönüştürmüş ve o kelime havuzundan, o parametre havuzundan sayısala dönüştürdüğü eee vektörlere dönüştürdüğü sayılardan sizin verdiğiniz bir vektöre dönüştürüyor ve

Speaker A

ondan sonra gelme ihtimali olan kelimeyi o vektör database'den bağlam çıkartarak bulmaya çalışıyor. Bakın burada çok büyük milyarlarcalık bir data veri setinden bahsediyoruz ve bu milyarlarca olan veri setinin içerisinden bir şey arıyor. Bir kere ne yapması lazım? Bu milyarlarca olan 7 milyar parametreyi

Speaker A

alıp bir yerde tutması gerekiyor. RAM gibi bir yerde tutması gerekiyor. Hızlı cevap vermesi için. VRM dediğimiz yani VRM dediğimiz ne? Ekran kartlarında kull. Ekran kartı o yüzden çok kullanılıyor. Yani birden fazla sebebi var da bir tanesi de bu. VRM çok hızlı

Speaker A

cevap veren hızlı yüksek hızlı RAM'ler. Şimdi dolayısıyla bu yüksek hızlı RAM'lerde duruyor ki bu hızlı bir şekilde oradan o RAM hafızanın içerisinden Transformer mimarisi işlemci gücünü de kullanarak en yakınsamalı kelimeyi bir sonraki kelimeyi tahmin etsin.

Speaker A

Şimdi cevap token üretiliyor. Bugün hava. Bugün hava dendiğinde bugün hava çok güzel, soğuk, nasıl gibi kelimeleri tamam mı hesaplıyor bu tokenlardan.

Speaker A

Mesela bugün hava çok geliyorsa en çok yani en çok gelme ihtimali olan kelime çoksa %35 ihtimal bunu buraya koyuyor.

Speaker A

Yani o transformer mimarisi gidip bu sayıların arasındaki bir matematik yaparak en olası kelimeyi bir sonrasına yapıştırıyor. Şimdi elelen mantığını anlatıyorum aslında sizlere şu anda.

Speaker A

Peki bu nasıl oluyor? O demin şeyi seçtik ya bakın bir öncekinde şu %35 dedik ya. Bu %35 dediğimiz şey aslında şu weight dediğimiz %37 küsür diyor ya burada parametre ve ağırlık ne? Eee, parametre ve ağırlık. Parametreyi buluyor. Buna uygun bayas farkını,

Speaker A

yakınsamasını buluyor. Yani ne yapıyor? Buna en uygun hesaplama olasılık hesabı yaparak bir Metris tabloda en uygun getiriyor. Peki gelelim hani dil modellerinde yanında 4 milyar, 5 milyar, 10 milyar, 20 milyar, 128 milyar parametreli dil modelleri var ya hani

Speaker A

bunlar biz lokalde bilgisayarımızda çalıştırdığımız zaman önem arz ediyor. Siz chat GPT kullandığınız zaman onlar da bu anlattığım bütün teknolojileri altyapılarında kullanıyorlar. Fakat o bizi bağlamıyor. Onların derdi. Biz sadece kullanıyoruz orada bulutlu olarak kullanıyoruz. Bulutlu olarak kullanmadığınızda kendi sunucularınızda

Speaker A

çalıştırmaya kalktığınızda bunlar çok önem arz ediyor. Şimdi 4 milyar parametreli yani nedir? 4 milyar tane yani cümle bütünlüğü kelimesi yani mesela kelime de olabilir, cümle de olabilir. Bunların her biri birer parametre olarak kaydediliyor.

Speaker A

Milyarlarca parametre oluyor. Yani siz ne kadar büyük bir veri seti yüklerseniz buraya, ne kadar büyük bir veri setiyle eğitirseniz oradaki parametre sayısı artıyor. Dünyanın bilgisi diye düşünün bunu. Dünyanın bilgisi. Yani şöyle bir şey var. Şöyle bir bilgi de

Speaker A

yükleyebilirsiniz. Bugün hava çok güzel. Bugün hava güzel. Yani bunları duplike olarak bile ekleyebilirsiniz. Neden?

Speaker A

Çünkü e bugün hava çok güzelle bugün hava güzel arasında da bir fark var. Biri bir şeyin fazla olduğunu ifade ediyor, biri az olduğunu ifade ediyor.

Speaker A

Normalde tahminlemeli bunu yürütür ve doğru da tutar büyük ihtimalle. Ama eğer siz diyelim ki eee şöyle geçelim. Yani eğer siz diyelim ki çok daha tutarlı olsun, bu yüzdeler birbirine daha fazla yaklaşsın, %99 yakınsamalı gelsin derseniz o zaman parametre sayınını

Speaker A

artırıyorsunuz. Daha az parametreyle de cevap bulabilirsiniz ama orada hala ince nüanslarda tam istediğiniz cevabı alamayabilirsiniz. Tam istediğiniz cevabı alabilmek adına parametre sayısı artırılıyor. Şimdi örneklerle vereceğim.

Speaker A

Yani bir eee dil modelin mesela 4 milyar parametreli bir dil modelini bilgisayarınıza çalıştırmak için ne lazım? 8 milyarlığı çalıştırmak için ne lazım? Niye? Bazıları mesela normalde RAM'imiz yetmez. Atıyorum düz hesap mantığıyla baktığınızda da hesaplamayı neye göre yapıyoruz? RAM hesaplamasını.

Speaker A

Bunların hepsini şimdi sizlere anlatacağım ve bu konuları da öğrenmiş olacaksınız aslında. Devam edelim. Şimdi parametre ağırlık bunları anlattık. 4B demek yaklaşık 4 milyar öğrenilmiş değer demek. Yani Q4 de buna da geleceğiz.

Speaker A

Quantization denen şey 4 milyar parametreli Q4 yani 4 bit quantization yapılmış. Bu ne demek? Buna da geleceğiz. Şimdi şimdi baktığınız zaman 4 milyar parametreli eee bir B harf değil. Yani tabii örnek olarak hani 4B 4 bilion milyar [boğazını temizler] demek. Yani 4 milyar

Speaker A

parametreli bu kadar parametre işte 8 milyar bu kadar 20 milyar bu kadar. Az önce anlattım. Model boyutu kapasiteyi arttırır. Yani cevap verme kapasitesini arttırır. Quantization da bunun daha az bellekte çalışmasına vesile olabilir.

Speaker A

Yani şöyle diyelim. 20 milyar parametreli bir modeli işte float point yani kaydırır. Ona da geleyim de sırayla gidelim. Çok hızlı gitmek istemiyorum.

Speaker A

Dikkat etmeye çalışıyorum. Örnek verelim. Mesela Ken'in 3 3,5 modeli. Adı bu Ken 3,5. Eğitmişler bunu. Daha yeni bir model. 4 milyar parametreli Qen 3,5 bir model bu. Tamam mı? Dil modeli bu. E LLM ya da SLM diyebilir. SLM ne? Small

Speaker A

language model. Yani daha az parametre varsa, quantization'ı daha yüksekse small dil küçük dil modeli olarak adlandırılabilir. El elemel yani parametre boyutu ve sıkıştırılması ile alakalı bir şey bunun. El elm de diyebilirsiniz sorun değil. 4 milyar parametrede az değil. Tabii ki katrilyon

Speaker A

parametrelerin yanında az da ama yine de az değil. 4 milyar parametre. Bu ne demek? 4 milyar parametreyle eğitilmiş yani 4 milyar parametresi olan eğitilmiş bir dil modeli. Burada da modelin mesela Q4NX 4 bit quantized formatta yani kuantize edilmiş 4 bit'e. Şimdi gelelim

Speaker A

bunların detaylarına da yavaş yavaş gideceğiz. Bir sonraki slayta geçeyim. Hepsini bu slaytta anlatmayayım. Şimdi bakın FP32 ne biliyor musunuz? Bu float point yani kayar sayı. 0 virg bilmem ne bilmem ne bilmem ne bilmem ne. Ya o kelimeyi e rakama şeye dönüştürürken ya

Speaker A

da cümleyi, kelimeyi her neyse vektöre çevirirken, sayısala çevirirken kullandığı derinlik yani kull üretebileceği karakter sayısı şey gibi düşünün bunun. Dijital analog. Analog nedir? Analog dediğimiz şey sonsuz bir frekans aralığı. Yani frekans mesela böyle gidiyor ya analogda yukarıdan aşağıya doğru. Onu birazcık anlatmam

Speaker A

lazım size. Kendime geçeyim. Önemli bir konu. Frekans dediğimiz şey böyle bir dalga boyudur. Yukarı gider. aşağıya gider ve aralarından böyle su sızmaz.

Speaker A

Çok sıkı bir veridir. Gerçek hayat analogtur. Yani şimdi gerçek hayat analog olduğu zaman mesela plaklar analogtur. Neden? Sesi olduğu gibi kaydeder. İğne üzerine gelir onu tıkır tıkır tıkır tıkır tıkır oradan birebir gerçek hayatın tonunu alır. Zaten planın ses kalitesi ondan yüksektir. Dijital

Speaker A

nedir? Dijital de örneklemedir. Örnekleme yani örnek alır. O ses aralığında mesela böyle bir dalga gidiyor ya. Sinüsoit bir dalga diyelim.

Speaker A

Böyle giden bir dalga. Bu dalganın belirli aralarından örnek alır. Bu dalgayı merdiven haline getirir. Yani şöyle giden dalgayı tamam mı? Şöyle yapar. Tık tık tık tık tık tık tık tık tık tık tık aşağı doğru inin. Merdiven gibi dijital eder. Neden? Örnekler alır.

Speaker A

Aşağıdan bir örnek, bir örnek, bir örnek, bir örnek, bir örnek, bir örnek, bir örnek. O analog ses diyelim. Analog sesin bir örneğini dijital olarak kopyalayarak alır. Çünkü o sonsuz tüm örneği alırsa dosya boyutu çok büyür.

Speaker A

Yani örnekleme yapmış olur. Dolayısıyla dijitalize etmiş olur. Buna dijital diyoruz. Tamam. Bu da öyle bir şey. Yani bu dil modelini de örnekleme yapınca ne oluyor? Biz kulağımızla duyarken hani frekans deniyor ya ona. İşte 128 kpbs saniyede 128 kbit/s. 128 örnekleme

Speaker A

almış. 256 kpbs 512 kpb örnek almış. örnekleme arttıkça dosya boyutu artıyor. Zaten çok örnek alırsanız artık o analoğa yakın bir şey oluyor. Yani bir manası kalmıyor dijitalize etmenin. Çok büyük bir veri haline geliyor.

Speaker A

Dolayısıyla o sesi de kelimeleri de dil modelleri rakama dönüştürürken hani ne kadar çok örnekleme alayım kelimeden ne kadar çok örnekleme alayım bu flot point denen şey FP olursa 0, tık tık tık tık tık uzun 16 bit örnekleme alayım demek.

Speaker A

Bu 16 bit neydi? Binary ikili sayı sistemi var ya 01. Heh işte o bitten 16 tane. O bitten 16 tane bize ne kadar basamak elde eder? 2 üzeri 16 tane eder. 16 bit. 8 bit float point FP. Sonra integer'a doğru gideriz.

Speaker A

Yani virgülsüz hale gelir. Integer dediğimiz şey virgülsüz tam sayı demek yani. Tamam mı? Float point'te ondalıklı sayı demek. Ondalıklı sayının derinliği daha fazla. Yani örnekleme kalitesi daha yüksek. Anladın? Çok güzel. Şimdi gelelim devam edelim. Bakalım nelerimiz var. Şuradan paylaşıma geçeyim ben

Speaker A

tekrar geri. Evet, geldik şimdi geri. FP float point 32 bit 2 üzeri 32 tane karakteri alır. Çok hassas. Ağır. Yani baktığınız zaman burada bir eee parametre 32 yani 2 üzeri 32 olabiliyor.

Speaker A

Çok büyük bir alan ve dolayısıyla dil modelinin boyu artıyor. Mesela bu ne demek? Siz dil modeli atıyorum 4 milyar parametreliyse 32 ile çarpıp onun boyutunu bulabilirsiniz. 4 x 32 ne yapıyorsa o dil modelinin boyutu o kadar megb olur. Çünkü bu kilob cinsine dönüş

Speaker A

pardon bunu kilobte'a dönüştüreceksiniz. Kilob olarak çarpacaksınız bunu. Tamam mı? 32 ile çarpmayacaksınız. Kilob'a çevireceksiniz biti. 8'e böleceksiniz yani bunu. Eee 16 k işte 4 kb yapar 16'sı. Bu da 8 kb yapar. 8ile çarpacaksınız. Yani 8 16 24 32 GB olur.

Speaker A

Eğer 4 milyar parametreli bir DR modelini siz float point 32 ile iş eee hazırlamışsanız eğer o zaman 32 GB'lık bir dil modeli olur. Ama siz bunu sıkıştırılmış bir hale getirirseniz yani int'e düşürürseniz ya da Q4'e düşürürseniz 4 milyar parametreli

Speaker A

neredeyse 4 GB'a düşüyor. Neden? Çünkü 1 KB'a düşürüyorsunuz şeyi bu 4'ü. Sırayla gidelim. Flot point 16 BF Brain Flot.

Speaker A

Yani bu da aslında eğitime daha yakın bir e format. FP16 da bunun 16'sı. 16 bit olanı. int de int olduğu zaman şey olmuyor. E ne derler ona? Virgüllü olmuyor artık. Integer tam sayı. E peki ben 0,32 mesela 0,32 benim için %32'dir.

Speaker A

Ben bunu nasıl o zaman tam sayı çevireceğim? Onu yazılım katmanında çeviriyor. Mesela birazdan ona da örnek vereceğim. Q4'te artık 4 bit yani 1 KB lokal kullanımda genellikle bizim bilgisayarlarımızda çalıştırdığımız işte QN 3,5 4 milyar parametreliyi FP32 formatında çalıştıramazsınız. Mesela

Speaker A

hadi RAM'e yüklediniz 32 raminiz var. MPU'unuz yetmez oradaki işlemi yapmaya, potansiyeli çözmeye. Yani dolayısıyla onlar artık laboratuvar ortamında çok ciddi veri merkezleri gerekir burada.

Speaker A

Hani bunlar artık şey zor yani. FP16, BF16 birazcık daha kurumsal firmaların H200 sunucularını, H100 sunucularında değerlendirilebilir formatlar. Ama INT8 ve Q4 birazcık daha bizim bilgisayarlarımıza. Bu geliştirme amaçlı Nvidia'nın Spark geliştirdiği, yeni çıkardığı laptoplar filan var ya onlar mesela Int'de çok güzel çalışacak.

Speaker A

Zorlarsanız FP16 belki ama çok zor yani FP16'da işlem yapması. Hani RAM'e birazdan geleceğiz. çok büyük olsa da zor.

Speaker A

Gelelim quantization. Sıkıştırma gibi ama değil. Quantization'ı anlattık aslında. Örnek bu da işte FP32'de gördüğünüz gibi kaydırmalı 0,10'dalık 3729 sürt diye giden bir şey. Şimdi bunu yuvarlıyorsunuz. int olduğu zaman yuvarlıyorsunuz ama integer olduğundan 37'ye yuvarlanıyor aslında. Yazılım katmanında bunu bu gidip eee 037'yi 0ırı

Speaker A

silip ondalığını 030 yani şey ondalık ekleyip 037 haline getiriyor. Yani diyeceksiniz ki 037 298 ile 037 arasında çok fark yok ki. Çok yakın. Güzel doğru söylüyorsunuz. Ama işte 4 milyar, 8 milyar, 10 milyar parametreye çıktığınız zaman bu farklar ciddi bir çıktığı

Speaker A

kalitesi, farkı ortaya doğuruyor. Çünkü dünya üzerindeki bütün bilgileri siz bu dil modeline yüklüyorsunuz. Bunların arasından bir bağlam çıkarmaya çalışıyor ve oradaki dünya üzerindeki bütün bilgilerde yakın sığmada bir kayma sizin istediğiniz cevabı üretmemesine vesile olabiliyor. Dolayısıyla bu çok eee

Speaker A

kritik ama güzel çalışıyor. Hatta biz bilgisayarlarımızda şu anda Q4leri anca çalıştırabiliyoruz. Yani güçlü bilgisayarlarda bile hani 8 bit'ler eee M5'lerde, M4'lerde falan kullanılabilir çalışıyor işlemci olarak ama o da Q4'e geçtiğin zaman çok daha hızlı çalışıyor ve işini de görüyor. Q4'te 1 bit. Demin

Speaker A

anlattık bunların detayını. Burada da eee aslında Q4 dediğin 4 bit olduğu için 0'dan 16'ya kadar rakam oluyor aslında sadece. Dolayısıyla 4 olur bu mesela 4 oluyor. 0.4 daha da yukarıya yuvarlamış oluyorsunuz. Bence güzel anladınız bu tarafı.

Speaker A

Eee, Q4, Q5, Q8 dengesi. Q4 16 seviye anlatmıştım ya. 4 bit yani 2 üzeri 4.

Speaker A

Eee, Q5 32 seviye, Q8 256 seviye diye gidiyor. Bakın bayağı katlanarak gidiyor aslında. Yani hem RAM'inize sığdı, işlemci kapasitenizin de bu oranda birazcık artıyor olması lazım. Devam edelim.

Speaker A

Şimdi baktığımızda CPU, GPU, MPU. Kim ne yapıyor? CPU genel amaçlı işlemci. Bütün bilgisayarlarımızda yıllardır var zaten ve kullanıyoruz. Aslında bu dil modelleriyle oluşturduğumuz ajanların mesela sırasını yönetme, dışarıdan bir servis çağırma gibi şeyleri CPU'lar gayet güzel yapıyor. E GPU ne yapıyor?

Speaker A

Paralel hesaplama. Neden? Çünkü matris mimarı dedik ya. Matris. Matris bir hesaplama yapılıyor burada. Bu matris hesaplamada bizler eee paralel yani yol düşünün. Tamam mı?

Speaker A

Ben kendimi büyüteyim burada birazcık. Burada da büyütmem gerekiyor. Büyük ben daha güzel anlatır bence bunu. Büyük ben. Büyük ben. Bak abi şöyle şimdi.

Speaker A

Eee, GPU'lar paralel işlemi daha güzel yapıyor. Yani bir tane örnekleme vardı. CPU'lar böyle tek ateş ediyor. Tak tak tak ateş ediyor. Tamam mı? Tek noktaya boya tabancası gibi düşünün. GPU'lar böyle yolu çok fazla birden böyle pat 5 diye atıyor. Beş tane birden atıyor.

Speaker A

Mesela bir resim yapacaksınız. Nokta nokta yaparsanız ne olur? Tık tık tık tık tık [kahkaha] tık tık tık tık tık tık resmi boyarsınız, değil mi? Ama GPU'da bunu yaparsanız böyle pat diye resmi duvara yapıştırır. Yani size. O kadar hız farkı var. Paralel olarak çok

Speaker A

daha fazla iş yapabiliyor. Dolayısıyla siz bu matristeki derinlemesine matematiksel hesaplamaları, eee, machine learning algoritmalarını, transformer mimarisini koştururken bu birden fazla hesaplamayı ne kadar çok aynı anda yaparsa böyle iç içe tek yapması çok zor. Yani CPU'da o yüzden bu işler çok

Speaker A

uzun sürüyor. GPU aynı anda yapıyor böyle pat diye. Yani bir tanesinde otoban var. Otoban var ama tek şerit.

Speaker A

Hızlı gidebiliyorsun. CPU hızlı yani gigerz'i hızlı. 5 GHz bir CPU'nuz var ama tek yol abi yani basıyor gidiyor böyle tık tık tık tık tık gidiyor ama GPU'da yani CPU'da da çok yol var da hani bu şey olarak söylüyorum bunu genel

Speaker A

mantığa vurduğunuz zaman benim dediğime çıkıyor. Beş şeritli yol var. 5 şeritte de aynı hızda yine 5 gHz ama 5 şeritte gidiyor arabalar. İşte çok çekirdekli işlemciler var ama orada limitli hani 8 core 16 core kudalarda böyle artık 100

Speaker A

core 120 core falandan bahsediyoruz. Yani iş çok çığrından çıkıyor GPU'ya geçtiğimiz zaman. Dolayısıyla GPUile bir de MPU diye bir şey var. MPU da bunun e daha küçük işe özel CPU'dan biraz daha fazla geniş bandw olan yani aynı anda

Speaker A

paralel iş yapabilen MPU'lar, GPU'lar, MPU'lar aynı mantıkta çalışan şeyler. Bir de tabii ki TPU filan var. TPU'da trans eee neydi o? Eee tenser processing unit. Bu da Google'ınki mesela. O da yine aynı şekilde paralel işleri hızlı yapabilmek için geliştirdiği bir

Speaker A

işlemci. Devam edelim paylaşımdan. Şimdi RAM kısmı da önemli. Bakın size bütün yapay zekayile ilgili duyduğunuz tabirlerin hepsini anlatmaya çalışıyorum. VRAM dedik. GPU belleği.

Speaker A

VRAM'ler eee birazcık daha hızlı. Bant genişlikleri fazla. İşlemcinin de fazla, RAM'in de fazla. Yani o işlemci o RAM'den gelen çoklu yolu aynı şekilde absorbe edebiliyor. RAM sistem belli.

Speaker A

Unified ortak havuz dediğimiz şey. Unified dediğimizde birleşik bellek. Yani aslında onard ekran kartları önceden bilgisayarın ramini kullanırdı ya onun gibi ama çok daha hızlı. LP DDR 5X diye bir şey var mesela şu anda. İşte low power DDR5 yani gibi

Speaker A

düşünebilirsiniz bunu. RAM. Bu RAM'ler hızlı ve az enerji tüketiyor. Mesela gidip de bir MacBook aldığınız zaman veya benimki gibi güçlü bir Windows laptop aldığınız zaman bunda gelen işlemci bu. Ekran kartına veya MPU ile onu paylaşıyor. Bende hem MPU var hem

Speaker A

ekran kartı var. Hem MPU hem ekran kartı onu kullanabiliyor. Mesela 32 GB RAM var. 32 GB ekran kartı zor ama 32 GB bilgisayar RAM'i kolay. Bir de LPDDR 5X olduğu zaman benim MPU'm da, GPUm da onu kullanabiliyor. Böyle inanılmaz büyük

Speaker A

bir şey oluyor yani. Tamam mı? Yani dil modeline uygun bir şey olu ama küçük dil modellerine yavru yavru bunlar. Öyle çok gözünüzde büyütmeyin.

Speaker A

Context window ve KV Cash. Bu da bağlam penceresi. Yani siz bir soru sor mesela bir doküman göndereceksiniz. 10 sayfalık bir doküman 8K token'ı tüketir. O kadar soru sorabilirsiniz. Daha fazlasını işleyemez bu dil modeli. İşte 32K biraz daha fazla. 128K bir kitap diyebiliriz.

Speaker A

Mesela bugün hani güncel dil modelleri yani şu an eee çok gelişmiş olanlar aslında Ceminay 2,5'ta bile 1 milyon kontekst bağlamını alıyordu ve aslında bu bir kitap yazdırabilirsiniz manasına geliyor ama gerçekte kullanılabiliri biraz daha düşük ve o kontekst bağlamla

Speaker A

beraber bir de cash var. Cash de sizin önceden yazdıklarınızı hatırlamaya yönelik eee bir bağlam ama local dili modellerinde bilgisayarda filan bunları yapmak gerçekten çok güç. Evet.

Speaker A

Inference, training, find tuning. Şimdi gelelim bu konulara. Inference hazır modeli kullan. Bir model indirdiniz bilgisayara. O indirdiğiniz modeli bilgisayarında çalıştırıyorsan bu inferencer dil modelini bilgisayarında çalıştırmak. Find tuning ise bir modeli mesela 4 milyar parametreyi de 8 milyar bir parametreyle bilgisayarınıza

Speaker A

çalıştırıyorsunuz ama kendi işinize özel onu birazcık eğitebilirsiniz. Koruna dokunmuyorsunuz ama etrafına koru dondurarak etrafına bir alan ekliyorsunuz. model ortada duruyor.

Speaker A

Etrafına siz kendi istediğiniz gibi bazı parametreler ekliyorsunuz. Bunlardan bahsedeceğim. Bir de training var. Training de şu. Dışarıdan aldığınız bütün veriyi, bütün metinleri, bütün bilmem neleri vektörize ediyorsunuz.

Speaker A

Oradan eğitiyorsunuz. Eğittikten sonra o parametrelere dönüşüyor ya onlar. O kadar parametreli bir dil modeli çıkartıyorsunuz. O sıfırdan eğitme işi çok güç büyük güçlü eee GPU'lar gerektiriyor. Bu iş zor. Onu evde falan yapmak zor yani. Hatta kurumsal firmalarda bile yapmak zor. Şimdi fine

Speaker A

tuning dedik ya. Fine tuning dediğimiz şey aslında Lora diye geçen şey. Lora. Lora dediğimiz eee bizim bir sonraki aşamada onu anlatalım.

Speaker A

Lora dediğimiz aslında o dışarıdan kabuğu dış kabuğuna eğitme işine Lora deniyor. Bu aklınızda dursun. Bir de sistem promt'la da yapabilir. Yani bu aslında bu eğitime şuna yarıyor. Sen işte eee diyorsun ki buna sistem promta yazarsınız ya sen şöyle şöyle bir

Speaker A

uzmansın. Bu konular hakkında cevap verebilirsin. Bunlara cevap veremezsin gibi kuralları belirtiyorsunuz. Aslında o kuralların dışına çıkmamasını sağlıyorsunuz. Lora yaparak eee daha büyük veri setleri buraya vermiyorsunuz.

Speaker A

Büyük veri setleri demek zaten ağır bir eğitim. O zor demiştik. Büyük veri setleriyile yapay zekayı beraber çalıştırmak istiyorsanız bu sefer rug denen bir yapıya geçiyorsunuz. Onu da birazdan anlatacağım. Lora ise eee mesela sizin işiniz sigortacılık.

Speaker A

Sigorta arıcınızlıkla alakalı temel tabir şeyleri buraya yüklüyorsunuz ve onun dışında bir şey cevap vermesini istemiyorsanız bunu sistem promp'la da yapabilirsiniz ama sistem prompta her çağrıda göndermeniz gerekiyor bunu. Hem yavaşlatır hem kaçaklar olabilir hem token kullanımınızı artırır. Ama lora

Speaker A

yaparsanız hem daha hızlı cevap verir, token bağlamını azaltır, pencere boyutunu daha dar pencerede işinizi halledersiniz. demin anlattığımız birçok avantajı oluyor. Ama siz tabii ki büyük dil modellerini dışarıda chat GPT 5.5 gibi bir şey kullanıyorsanız, bir uygulama yazıyorsanız oraya sabit bir

Speaker A

sistem promtını koyun. Her seferinde gönderin. Çünkü bunda bir sıkıntı yok zaten. Çözer de düzgün de çalışır. Lora biraz biz lokalde çalıştığımız zaman veya işe özel bir geliştirme yaptığımız zaman y burada da yazmış işte.

Speaker A

Şimdi Lora küçük adaptörü ile uyarlamam. Lora adaptör deniyor buna. Ana model donuk. Ana modele dokunmuyorsunuz.

Speaker A

Mesela küven 3,5 4 milyara siz dokunmuyorsunuz. O eğitildiği gibi kanıyor. Dış çerefine bir lora adaptörü geçiriyorsunuz. Siz orada kendi kelime havuzlarınıza, kendi data setinizle en dışına bir eee filtre katmanı ekliyorsunuz gibi. Dolayısıyla göreve özel bir davranış ortaya çıkmış oluyor.

Speaker A

Bir de Qora var. Qora da qüantize edilmiş. Anlattık ya küentize edilmiş mevzuyu. Yani o modeli alıyor kantize ediyor 4 bit'e. 4 bit'i küentize edip eee modeli üstüne bir de lora yapıyor.

Speaker A

Hem daha az RAM'de bunu çalıştırabiliyorsunuz bu sefer. Ya da 8 milyar ya da 16 milyar veya 32 milyar parametreli bir şeyi 4 bite küentize ediyorsunuz. Boyutunu daraltıyorsunuz.

Speaker A

Daralttıktan sonra üzerine bir lora adaptör geçiriyorsunuz ve daha düşük VRM'de bu modeli kullanabiliyorsunuz. Qora da bu.

Speaker A

Şimdi lora mı, prompt mu, rag mı? Bunu bir kıyaslayalım. Bak burada da örnek vermişiz. Anlık rol ve format sistem prompte işi çözüyor. Şirket doküman güncel bilgi yapacaksanız rock yapıyorsunuz. Anlatacağım. Tekrarlı davranış sınıflandırma lora yapıyorsunuz. Daha az vam'imiz varsa

Speaker A

Q'lara yapıyorsunuz. Okey. Yine bence anladınız. Rock önce ara sonra cevap rock. Rock dediğimiz şey de şu. Dokümanı alıyorsunuz. Bir dokümanı. Dokümanı bir yazılımla çanklara, bölümlere ayırıyorsunuz. eee sayılara bölüyorsunuz bunu. Daha sonra bunu embeding veri tabanı embeding bir modelle yani şöyle

Speaker A

yapıyorsunuz aslında vektörize ediyorsunuz. O datayı dokümanı sayılara dönüştürüyorsunuz. Aynı elem yaparken çevirdiğimiz gibi aynı şey. Daha sonra bunu vektör veri tabanına bu sayıları veri tabanına yüklüyorsunuz. Sonra retrieval yani çekiyorsunuz. Oradan bir soru soruyorsunuz. O sizin sorduğunuz sorunun cevabı o dokümanda var mı diye

Speaker A

yakınsayarak size olası cevapları dönüyor dokümandan. Daha sonra bu cevabı alıp bu cevabı alıp eleme prompt olarak gönderiyorsunuz aslında yine. Yani eee dışarıda haricen bir vektör veri tabanında bir şey arıp sayı sayılara dönüştürüp çıktığı texte veriyor size.

Speaker A

Siz o textle beraber diyorsunuz ki prompt yazarken işte bunun bunun cevabı veri tabanında bunlardır diyorsun. O da sana eee cevabı üreten yine elm oluyor aslına bakarsanız.

Speaker A

Ragıda anlatmış olduk. Vektör dbde sayılar saklanır. Text saklanmıyor tabii ki. Metadata, PDF bunların hepsini eee vektörize edip veri tabanına yükleyebilirsiniz.

Speaker A

Peki anlattım aslında bunu da sunumu geldi. El eleme vektör mü gönderilir? Yani ben vektörü mü gönderiyorum? Soru vektörü. Vektör database metin çankı.

Speaker A

Ben metine dönüştürdüğüm şeyi el eleme gönderiyorum. Yani vektör eleme göndermiyorum. Vektörü vektörle arıyorum. Metni el eleme veriyorum.

Speaker A

Tamam. Peki embeding modeli lelm gibi mi şimdi? H değil ya. Aynı şeyleri anlatıyor. Evet.

Speaker A

Yani embeding modeli anlattık zaten. Tekrar etmeme gerek yok bunu. Lelm yani şeyi anlatmaya çalışıyor aslında. Yani vektör veri tabanı dediğiniz şey de elm gibi olmuyor mu? O zaman sorduğum soruya cevap veriyorsa neden? sorduğun soruya cevap vermiyor. Sorduğun soruya eee

Speaker A

karşılığında bir text varsa o texti döndürüyor sana. Aslında onu yapıyor sadece cevap vermiyor. Cevap üreten yine elem oluyor.

Speaker A

Chunking kaç sonuç gelsin? Ranking reg'e çok odaklanmışız ama anlatmış olduk. Bir de giguf olama lama cpplm. Şimdi biraz da bunların mantığını anlatırım. Bunlar nedir? Bunları da duyuyorsunuz. Hugging Face diye bir site var. Bogging Face aslında yapay zekanın şeyi gibi, eee,

Speaker A

kaynak kodlarının saklandığı, herkesin de facto bir standart olarak kullandığı bir site. Bu siteye herkes işte siz özel, eee, bir eğitim yapmış olabilirsiniz ya da işte lora yapmış olabilirsiniz filan bir modeli, güvenlik modeli oluşturursunuz, işe özel model oluşturursunuz, oraya

Speaker A

yükleyebilirsiniz. Ya da büyük üreticiler açık kaynak modellerini buraya yüklüyor ki bu da aslında gitap gibi yani dil modellerinin gitabı gibi düşünebilirsiniz. orada tutuyor insanlar. Versiyonlarını, açık kaynak versiyonlarını indirebilirsiniz. Gigf bunu bir eee modelin tarzı yani nasıl bir tarz olduğu, onu siz oradan küantize

Speaker A

edebilirsiniz vesaire. Burada bu şekilde kendisi yani modelin kendisi daha sonra Olama, lama gibi veya FLM gibi eee cihazlar da o modelleri size arayüz olarak sunuyor. Siz de oradan sorular sorabiliyorsunuz ve local API olarak yani lokal bilgisayarınızda çalışan modeller size cevap versin diye bunu

Speaker A

ayağa kaldırabiliyorsunuz. Şimdi model seçme matrisine baktığımız zaman işte az bir RAM lokal denemelerde Q4, Q5'ler güzel. PC'lerde ya da lokal GPU'larda işte kaliteyi biraz arttırırsanız Q6, Q8 ya da Flot point 16 makinenizin RAM'i kaldırıyorsa ve çok güçlü bir AI işlemciniz varsa olabilir.

Speaker A

Şirket dokümanlarını yükleyecekseniz, şirket dokümanından bir şey yapacaksanız rock bu taraf format ve sınıflandırma yine prompt gerekirse lora yapabilirsiniz. Tamam mı? üzerine kabuk geçirme uzan uzun transkriptler eee yapacaksanız context window'unuzun geniş olması lazım ve KV Cash hesabını düzgün yapmanız gerekiyor.

Speaker A

Evet tabii burada doğru bunların hepsini niye anlattık? Bunların hepsini doğru çıktı alabilecek, kendi kurumunuzda çalışacak, internete çıkmayan bir model geliştiriyorsanız veya elemler nasıl çalışıyoryu merak ediyorsanız bunu anlamlandırmak için yaptık. Ama siz bunların hepsini yaptıktan sonra doğru cevap veriyor mu? Halüsinasyon görüyor

Speaker A

mu? Gecikiyor mu? Güvenliği nasıl? Token maliyeti ne oldu? Token maliyetini illa siz lokalde de çalıştırsanız bir enerji tüketiyorsunuz ya onu da öyle hesaplıyorlar. Yani bir bir kelime sana bir cevap verirken harcadığı enerjiyi baz alıyor. İşte bir tokenun enerji

Speaker A

karşılığındaki maliyeti bu deyip size bir modelin kaç tokan cevap veriyorsa onun enerji maliyetini çıkartıyor. Çünkü çok büyük matris hesaplamalar yaptığı için çok güç tüketiyor bu GPU'lar. çok güç tüketiyor. Dolayısıyla burada da bir enerji maliyeti ortaya çıkıyor. Ve zaten

Speaker A

şu anda eee en son gelirim ona. Eee yani ilk testlerde bile küçük bir test yani model kalitesini test etmeniz gerekiyor.

Speaker A

Şimdi şöyle bir düşünün. Neler vardı? Neler anlattık? Bakın artık belki eğitimin başında size hiçbir şey ifade etmeyen birçok şey bu tabloda ilk baktığınızda ifade etmiyordu. Şimdi baktığınızda hepsi bir şey ifade ediyor değil mi? Bu işte yapay zekanın ABC'si olmaya

Speaker A

başladı. Bunları herkesin bence teknoloji dünyasında da teknolojiye çok yakın, kafası biraz bu işlerle ilgilenen, herkesin bilmesi gereken şeyler. Bir şeyi kullanırken onun nasıl çalıştığını çok yüzeysel olarak anlattım. Çok yüzeysel olarak biliyor olmak gerçekten çok değerli. Şimdi eee bir tık bu eğitimin sonuna doğru işin

Speaker A

dedikodusuna da gidelim. Bu konuyu da burada kapatalım. Yaklaşık 35 dakikada o kadar çok konu anlattım ki aslında şu anda sizlere. Eğer bir bir şey ifade ettiyse ne mutlu bana. Şimdi burada geldiğiniz zaman bu modellerin maliyetleri yüksek. Anlattık. Niye

Speaker A

yüksek olduğunu da biliyorsunuz artık. Siz bugün chat GPT ya da Cloue'nin bir dil modelini kullandığınız zaman arka tarafta o kadar büyük enerji tüketiyorsunuz ki aslında bunların hani fiyatlarının da gittikçe hızlı artmasının sebebi bu. İlk etapta eğitim maliyetleri için sizden veri topladılar.

Speaker A

Uygun fiyata verdiler ve gittikçe fiyatları artmaya başladı. Model kaliteleri arttıkça anlattım. Bakın burada birçok şey anlattım. Kaliteleri, boyutları, işte quantizationları vesairesi yani quantization yapmazsınız da flot point 32'den flot point 64'e çıkacak belki. Anlatabiliyor muyum? Hani ama bu hesaplama sonsuza doğru gider.

Speaker A

Zor biraz ama e güç artması gerekiyor. Güç artacak büyük model gücün artmış olması demek. RAM'in artmış olması demek. İşlemci gücünün artmış olması demek. Sizin ona verdiğiniz sorunun karşılığında harcadığı enerjinin artmış olması demek. Bugüne kadar bu yapay zeka şirketleri zarar ediyordu zaten. Para

Speaker A

kazanmıyordu, para yakıyordu. Şimdi hala yakıyorlar ama artık belli bir noktadan sonra bir curve, denge yani zarar ettik, ettik de bir yerden sonra yukarı çıkmamız lazım bizim diyorlar.

Speaker A

Dolayısıyla şu an bu fiyatlara zam geliyor. Burada denge nasıl olacak? Ne kadar kar edecekler? Rekabetteki durum ne? Bu fiyatlar nereye kadar artar?

Speaker A

Bilmiyorum. Belki fiyatlar çok arttığında burada size anlattığım şeyler çok değer önem arz edecek. Çünkü siz kendi evinize bir tane atıyorum 100.000 L 150.000 L 200.000 Llere bir cihaz alacaksınız. Belki kendi işinize görecek dil modellerini buradaki bilgiler ve daha fazlasıyla hazır edip kendi

Speaker A

kendinize bilgisayarınızı burada kur hem güvenli olacak, internete hiçbir şey vermeyeceksiniz hem de daha ucuz olacak size. Kesinlikle tam onların modelleri her zaman çok daha yetenekli olabilir.

Speaker A

Çünkü dediğim gibi onlar işte flot point hiç quantization yapmadan çok ince ayarda bir hesap yaparak ve multimodle yani hem görüntü oluşturuyor hem video oluşturuyor hem konuşuyor hem yazdığınızı anlıyor filan. Bunların hepsi eee matematiksel olarak çok büyük hesaplamalar ve dolayısıyla güç

Speaker A

tüketiyor. Onlarla baş etmek biraz zor olabilir ama onlar milyonlarca insana eee yaydığı için bunu onlar için çok büyük enerji. Sizin tek başınsanız yani birazcık böyle yakın gelecekte ki çıkıyor Nvidia çok güzel Spark gibi cihazlar çıkartıyor. MacBook çok güzel

Speaker A

yatırımlar yapıyor. M4 işlemciler, M5 işlemciler. Bunlar 2-3 sene sonra bugün kullandığımız seviyedeki modelleri kişisel olarak kullanmanıza vesile olabilecek ince ayarlar yapacaksınız. O zaman bu videoyu hatırlarsınız. Bu arada şunu söyleyeceğim mesela bu videoyu izlediğiniz, buradan öğrendiğiniz bilgilerle bir yerlerde bir şeyler

Speaker A

paylaşabilirsiniz. Gayet serbest bir fik bilgidir. Serbestçe yayılması için var. Eee, sadece referans gösterirseniz yani teknoloji hayatta böyle video izlemiştim. Onu izlemenizi tavsiye ederim gibi şeyler hani insanlar bizi de motive eder burada. iyi olur. Bu tarz bilgiler ilginizi çekiyorsa kanala abone

Speaker A

olmayı ihmal etmeyin. Bir de yapay zeka ile ilgili bir WhatsApp grubumuz da var. Türkiye Dayanışma. Orada şu an 160 170 kişi var. Gelebilirsiniz. Orada da çok güncel haberler paylaşılıyor. İnsanlar güzel şeyler paylaşıyor. Ben paylaşıyorum. Orada bir etkileşim oldu.

Speaker A

Belki ileride oradan bir eee buluşma da yapabiliriz. Beraber fikir alışverisinde bulunabiliriz. Teşekkür ederiz. Kanala abone olmayı, videoyu beğenmeyi, hype'a basmayı ihmal etmeyin. Hoşça kalın.

Speaker A

kendinize

Topics:Yapay ZekaLLMLarge Language ModelRAGLoRAQuantizationTransformerEmbeddingTokenVektör Veri Tabanı

Frequently Asked Questions

LLM nedir ve nasıl çalışır?

LLM, Large Language Model yani büyük dil modeli anlamına gelir. Metinleri tokenlara dönüştürür, bu tokenları sayısal vektörlere çevirir ve transformer algoritması ile sonraki tokenları tahmin ederek cevap üretir.

Quantization ne işe yarar?

Quantization, yapay zeka modellerinin hesaplama ve depolama gereksinimlerini azaltmak için kullanılan bir tekniktir. Model parametrelerini daha düşük bit sayılarıyla temsil ederek verimliliği artırır.

RAG ve LoRA kavramları ne anlama geliyor?

RAG, Retrieval-Augmented Generation anlamında, bilgi tabanlı yapay zeka üretim yöntemidir. LoRA ise Low-Rank Adaptation olarak, mevcut modellerin daha az parametreyle adapte edilmesini sağlayan bir tekniktir.

Get More with the Söz AI App

Transcribe recordings, audio files, and YouTube videos — with AI summaries, speaker detection, and unlimited transcriptions.

App Store Google Play

Or transcribe another YouTube video here →