GenAI 3 : Diffusion : Kaostan Sanata: Yapay Zeka Nasıl … — Transcript

Diffusion modelleriyle metinden görsel üretimi, yapay zekanın hayal kurma ve resim yapma süreci detaylıca anlatılıyor.

Key Takeaways

Diffusion modelleri, veriyi önce bozup sonra yeniden düzenleyerek görsel üretir.
Metin promptları, görsel üretim sürecinde yönlendirici ve anlam belirleyici rol oynar.
Latent Space, metin ve görsel kavramların bilgisayar tarafından anlaşılmasını sağlar.
Diffusion modelleri sıfırdan değil, var olan verilerden yeni görseller oluşturur.
Yapay zeka modellerinin yaratıcılığı, öğrenilen veriler ve kavram uzayına bağlıdır.

Summary

GenAI'nin üçüncü dersinde Diffusion modelleri ve görsel veri üretimi ele alınıyor.
Diffusion modellerinin temel prensibi, veriyi önce kaotik hale getirip sonra düzenleyerek görsel üretmektir.
Noising (gürültü ekleme) ve denoising (gürültüyü temizleme) aşamaları detaylandırılıyor.
Latent Space kavramı, metin komutlarının anlamlı hale gelmesi ve görsel üretimdeki rolü açıklanıyor.
Diffusion modellerinin sıfırdan değil, var olan veriler üzerinden üretim yaptığı vurgulanıyor.
Metin promptlarının üretim sürecindeki yönlendirici rolü ve yapay sinir ağlarının işleyişi anlatılıyor.
Gerçek dünya analojileriyle Diffusion süreci mermer bloğunun heykel haline getirilmesine benzetiliyor.
Modelin yaratıcılığı ve var olan sanat eserlerinin taklidi olup olmadığı tartışılıyor.
Görsel üretim sürecinde kavram uzayının ve bağlamın önemi vurgulanıyor.
Bir sonraki derste farklı modellerin anlatılacağı belirtiliyor.

Full Transcript — Download SRT & Markdown

Speaker A

Gen AI, Generative AI, üretken yapay zekanın ilk modülü, birinci modülün üçüncü dersiyle beraberiz. Bu derste görsel veriler nasıl üretildiğinden bahsedeceğiz. Özellikle metinden görsel üretiyoruz, metinden resim üretiyoruz. Bunlar nasıl yapılıyor, arkada nasıl çalışıyorlar ve terminolojisinden biraz bahsetmeye çalışacağız, temelini anlatmaya çalışacağız.

Speaker A

Tabii ilk başta tanımlamakla başlamak lazım. Diffusion modelleriyle başlayacağız. Daha sonra farklı modelleri de anlatacağım bir sonraki derste. Ama bu ders daha çok Diffusion modellerini inceliyor olacağız. Diffusion'u tabii bir tanımlamak lazım. Yayılım diye Türkçeye çevrilebilir ama birazcık daha böyle şey düşünebilirsiniz. Yoğun bir ortamdan daha az yoğun bir ortama geçmesi, yoğunluğunu yani bunun tersine yoğunlaşma, bir şeylerin daha yoğun hale gelmesinin tersi yayılması.

Speaker A

Yani ortama yayılması. İşte bir anda mesela suyun içine yoğun bir şey bıraktınız, katı bir madde orada çözülüyor. Çözülme gibi de Türkçeye çevirebiliriz, yayılımı gibi düşünebilirsiniz. Buradaki ismin gelme sebebi, neye Diffusion diyoruz? Diffusion'un gelme sebebi aslında bizim üretmek istediğimiz veriyle ilgili önce bir karmaşıklık elde ediyoruz, bir kaos elde ediyoruz. Kaotik bir yapıya çıkartıyoruz. Yani her şeyi böyle bütün kartları masaya dağıtıyorsunuz gibi, saçıyorsunuz gibi düşünün, düzensiz bir hale getiriyorsunuz.

Speaker A

Sonra onu tekrar toplayıp düzenli hale getiriyoruz. İşte o düzensiz hale gelmesi bir anlamda bir yayılım gibi, bir yoğunluğunu kaybetmesi, düzenini kaybetmesi, formunu kaybetmesi, aynı katı bir maddeyi attığınızda suyun içinde erimesi, onun dağılması gibi düşünebilirsiniz, Diffusion olması. Burada birkaç tane aşamamız var. Bir denoising denilen bir şey var. Bir noising yani gürültü üretilmesi, sonra o gürültünün düzenli hale getirilmesi, denoising ve işte latent space gibi o gürültü uzayından nasıl çıkılacağından anlattığımız yapımız var. Aslında bu kavramları anlatacağız. Yani Diffusion nedir, denoising nedir, latent space nedir, yani gizli uzayımız nedir? Bunlardan biraz bahsetmeye çalışacağız. Gene resimden resime nasıl dönüştürüldüğüyle ilgili biraz fikir vermeye çalışacağız ve bu kavramları öğrenmeye hemen başlayalım.

Speaker A

Şimdi öncelikle bir analojiyle başlayalım. Malum eğitimimizdeki bütün videolarda önce bir analojiyle başlıyoruz. Gerçek dünyadan konuyu bir anlatabileceğimiz hikaye bulmaya çalışıyoruz. Bir makinenin 'sıfırdan' nasıl resim çizdirilir? Hani en büyük şeydir ya bu ressamlara sorarlar, büyük sanatçılara sorarlar, derler ki işte en zorlandığın an nedir? İlk tabloyu, ilk tuvale, bembeyaz bir tuvale ilk fırça darbesi en zor darbedir filan derler. Çünkü orada bütün artık ondan sonraki darbelerin altyapısını, başlangıcını belirlemiş oluyor. Bir peki yapay zeka modeli gerçekten ilk darbeyi vurabilir mi? Hiç ortada bir şey yokken sıfırdan bir şeyler üretebilir mi? Bizim Diffusion model yaklaşımımızda böyle bir şey söz konusu değil. Diffusion model yaklaşımı var olan varlıklar üstünden, var olan resimler üstünden, metinler üstünden ne derseniz çalışan bir yapıya sahip. Dolayısıyla öncelikle bir şey var olacak. Ama bu var olan şeyin içinde hani gene heykeltıraş örneğini verelim. İşte heykeltıraşa soruyorlar bu muhteşem eseri nasıl yaptın? O zaten o taşın içindeydi, ben fazlalıkları çıkarttım dediği gibi aslında zaten bir mesela mermer bloğunun içinde o sanat eseri var ve o potansiyel var. Bizim Diffusion modelimiz bu şekilde yaklaşıyor. Mermer bloğunun içinden fazlalıkları çıkartıp ona bir form vermek, şekil vermek gibi düşünebilirsiniz. Ve başlangıç noktasında elinde bir taş olması gerekiyor. Bu taş çok düzensiz, çok formu bozuk, çok çirkin bir taş da olabilir. Onu düzene sokmak mantığına sahip Diffusion diyebiliriz.

Speaker A

Şimdi burada birkaç tane aşamamız var. İlk adımımızda ileri sürecimiz var, Forward Process dediğimiz. Burada kaotik bir ortam yaratıyoruz öncelikle. Elimizde işte çok güzel bir kedi resmi var. Oradan başka şeyler üreteceğiz mesela diyelim ki kedi resmini alıp başka şeyler üreteceğiz. Buna gürültü ekliyoruz. Gürültü ekledikten sonra bu eski televizyonlarda vardı şimdi yeni televizyonlarda artık görünmüyor ama karıncalama dedikleri bir şey vardı. Böyle ekranda saçma sapan küçük küçük resimler, küçük küçük siyah beyaz noktalar çıkıyordu. Bu yapıya gidiyoruz. Yani gürültülü bir resim haline getiriyoruz. Artık orijinal resme göre daha kötü, daha çirkin, daha istenmeyen bir hale geliyor. Ve bunu o kadar ileriye götürüyoruz ki neredeyse resim tanınmayacak hale geliyor.

Speaker A

Ve o tanınmayan resimden sonra tekrar yeniden bir resim inşa ediyoruz. Aslında Diffusion modellerinin sırrı bu. Bu gürültülendirme, noising aşaması, gürültülendirme aşaması ve daha sonrasında da denoising aşaması, yani gürültünün kaldırıldığı, gürültüden şekle, kaostan düzene bir anlamda geçtiğimiz aşama olarak görebilirsiniz. Yani ilk aşamada bir mermer bloğumuz var, gürültülü hali o mermer bloğunun diyelim ki. İkinci aşamada ise biz o gürültüyü bir resme, bir forma dönüştürüyoruz, heykeli ortaya çıkartıyoruz diyebiliriz.

Speaker A

Burada bir Latent Space dediğimiz kavram var. Arada bu geçiyor. Yani düşünün çok gürültülü bir resim var elinizde, bir kediden gürültülü hale getirdiğiniz bir resim var. O gürültülü resimden sonra siz bir resim üreteceksiniz. Üreteceğiniz resme şekil veren, üreteceğiniz resme ne istediğinizi söyleyen kısım metin kısmı. Siz bir prompt yazıyorsunuz. Diyorsunuz ki prompt'ta bana bu kedi resmini al, bundan daha güzel bir kedi üret veya bu kedi resmini al, işte bu kediyi kaplana çevir gibi bir şey yazıyorsunuz. Bu yazdığınız terimler aslında bizim gizli evrenimiz, fikir evrenimiz, fikir uzayımızı oluşturuyor. Latent Space diyelim buna. Bu fikir dünyamızda, sanal dünyamızda, hayal dünyamızda diyelim ki işte bir kedi tanımı var, bir kaplan tanımı var, değil mi? Bir mesela kedinin bulunduğu ortamla ilgili komutlar vereceksiniz, o ortamdaki objelerle ilgili bir algı dünyamız var. Bunlar, bu isimler bizim hayal dünyamızda verdiğimiz şeyler. Gerçekte ben kedinin birisine gidip de aslan desem, hiçbir şey anlamaz yani. Onun o dili anlama şansı, o kelimeleri anlama şansı yok. Onlar bizim için anlamlı. İşte demek ki bu metnin de bilgisayar için anlamlı hale gelmesi için bir uzaya, bir kavram uzayına, bir bağlam uzayına, anlam uzayına ihtiyacımız var. İşte bu anlam uzayımızda da biz bütün görsel kavramları, yani kedi, ağaç, mutluluk, işte fütüristik şehir ne istiyorsanız, bütün bu kavramları birbirine bağladığımız bir uzay inşa ediyoruz. Bu uzayda kelimeler söylendikçe o kelimeleri ifade ettiği resimlere benzeyen resimler üretilmeye başlanıyor. Ve bu vermiş olduğumuz komuda göre gürültü temizleniyor, denoising yapılıyor. Gürültünün gürültüsüzleştirme yapılıyor. Yani düzene getirme yapılıyor. Gürültülü şekil vermiş olduğumuz komuta göre dönüşüyor diyebiliriz bu Latent Space'deki kavram uzayıyla birlikte.

Speaker A

Burada prompt'u bir orkestra şefi gibi düşünebilirsiniz aynı zamanda. Evet, bir şeyler yapılacak, bir işte resim yapılıyor veya bir ürün üretiliyor ama bu ürünün nasıl üretileceğiyle ilgili yönlendirme yapan kısım. Arkada tabii ki yapay sinir ağları çalışıyor ve bu yapay sinir ağları öğrendikleri sistem üstünden bir üretim yapacaklar. Ama bu sistemin, bu üretilen sistemin nasıl çalışacağını organize eden yapı metin oluyor. Bizim vermiş olduğumuz metin. Biz bir işte uçak resmi istiyoruz. Biz bir mavi şapkalı kedi resmi istiyoruz. Bunun gibi kavramları, şapka kavramı, mavi, işte kedi kavramı, bunların bağlantısını daha önceden öğrenme sürecinde öğrenmiş bir modelimiz var. Bunların bağlantısını sonradan da kurması için prompt'lar veriliyor ve bu prompt'lar üstünden de ilişkiler kuruluyor diyebiliriz kısaca.

Speaker A

Peki şöyle soralım. O zaman bu Diffusion modelleri gerçek anlamda bir yaratıcılık mı yaparlar yoksa bu Diffusion modelleri var olan sanat eserlerinin taklidi midir? Günün sonunda kedi ne olduğunu, kedi resmi yüklendiğinde öğreniyor. Uçağın ne olduğunu uçak resimleri yüklendiğinde öğreniyor. Sonra ben uçan kedi yap dediğimde uçakla kedi için öğrenmiş olduğu bilgileri birleştirerek uçan kedi resmi yapıyor. Şimdi tamam günün sonunda prompt'u ben verdim ve daha önce kimsenin aklına uçan kedi gelmemiş olabilir. Ben söylemiş olabilirim ilk kez. Bu anlamda benim bir yaratıcılık payım var. Güzel. Yani prompt veren herkes bu anlamda bir yaratıcılık gösteriyor olabilir. Olmayadabilir. Bilinen bir şeyi de tekrar ediyor olabilir. Ama peki bu prompt yazıldıktan sonra uçan kedi üret dedikten sonra belki binlerce, milyonlarca, sonsuz sayıda farklı uçan kedi resmi üretilebilir. Buna karar veren kim? İşte Diffusion modelimiz. Orada bir yaratıcılıktan bahsedebilir miyiz? Yani uçan kediyi nasıl üreteceğiyle ilgili aslında bir yaratıcılık var orada diyebilir miyiz diye bir soru ortaya atacak olursak iki farklı görüş var. Hatta bu görüşler şunun için de önemli. İşte telif hakkı konuları için de önemli. Çünkü günün sonunda benim kedi resimlerimden, benim fotoğrafını çektiğim, benim çizimini yaptığım kedi resimlerinden beslenmiş, onları öğrenmiş. Öyleyse yeni ürettiği resimde de bana telif hakkı vermeli diyenler var. Ve bu diyenler diyorlar ki yapılan şey mekanik bir iştir. Burada sanat yoktur. Hatta sanatın olması için insan olması gerekir diyen bir yaklaşım da var. Bu sanat nedir ve hangileri sanat sayılabilir çok eskiye dayanan bir tartışma. Hatta fotoğraf işte sanat mıdır diye hala tartışılıyor yıllardır. Ve bu sanat camiası bu konuda bir fikir birliğine varabilmiş değil. Ama bu yapay zekayla üretilenler için de aynı tartışma ortada. Bu bir sanat mıdır? Yani biz gerçekten o anlamda, biz gerçekten o anda yapay zekaya bir komut verdikten sonra yapay zeka sanatsal bir faaliyet mi gösterir dediğinizde bir görüş diyor ki bu mekanik bir iştir ve orada sanatsal bir şey yoktur. Alır verileri işler, o verilerin üstünden yeni bir şey ortaya çıkartır ve bu mekanik bir iş olduğu için sanatsal değildir diyor. Diğer görüş ise diyor ki bunu sanat olması için ne lazım? İşte insan yaparsa sanat olur. Yani uçan kediyi insan çizdiğinde sanat olacaktı bu diyorlar. Peki o zaman uçan kediyi insan çizdiğinde o da başkalarının çizdiği kedi resimlerinden, başkalarının çizdiği uçak resimlerinden, uçmak resminden vesaire etkilenmiyor mu? Etkileniyor. Bütün o gördüğü resimler hafızasında. Ona göre bir şeyler üretiyor. Dolayısıyla o insan da aslında başkalarının taklidini yapmış, başkalarının üstünden mekanik bir iş yapmış olmuyor mu? Oluyor diyorlar. Bir grup insan da bu görüşte. Tabii ki biz iki görüşü de söylemekle mükellefiz. Farklı görüşler burada devam ediyor ama bu görüşlerin, bu tartışmanın arkasında telif hakları gibi çok büyük bütçelerin, çok büyük tartışmaların da olduğunu bilmekte fayda var. Yani bu iş sadece böyle bir tartışalım, bir bakalım ne olacak, ortada bir tartışma olsun diye atılmış tartışmalar değil. Arkasında ciddi ekonomik veya işte diyelim teknolojiyi şekillendirecek, bu teknolojileri artık yapmak yasaklanacak, şunları yapmak için kanunlar çıkacak filan gibi sonuçları da olabilecek konular olduğunu söylemekte fayda var.

Speaker A

Peki şu an durumumuz nedir? Şu an mevcut durumda Diffusion modelleri nerede kullanılıyor, nelerden bahsedebiliriz? Diffusion modelleri şu anda büyük oranda sadece resim üretmek değil, artık video üretmekte de kullanılıyor. İşte Sora gibi, Veo gibi farklı üretken, üreteç yapay zekalar var. Ve bu yapay zekalar artık bir metin üretirken nasıl kelimelerden sonra hangi kelime gelebilir diye sorduğunuzda o kelimeyi tahmin ediyorsa, video karelerine, resim karelerinden oluşuyor değil mi videoda sonuçta? Belli bir frame per second var. İşte 20 diyelim ki gözün algıladığı 25 veya 60 frame per second'dan şimdi üretiliyor. Bu kadar resmi arka arkaya basıyor. Bastıktan sonraki kare ne olabilir? Onu koyuyor. Sonraki kare ne olabilir diye sorarak aslında dil modellerindekine benzer bir yapıyla üretim yapıyor. O yüzden zaten bu dil modelleri gelişti ve biz sadece dil üretmiyoruz, video da üretiyoruz çıkışı bu yüzden yaşandı. Çünkü aslında teknoloji çok yakın birbirine, çok benzer bir yapıdan geçiyor ve video üretmek de aynı mantığa dayanıyor. Ve sonrasında da bu dil modeli üreten firmalar, teknolojiler tamamı bu video üretmek gibi amaçlarla da kullanılmaya başlandı. Burada gene bir Diffusion modeli var tabii ki. Bu ama Diffusion modeli sadece bir resmin içinde, bir resmi yaparken onu kaosa getirip sonra düzene sokmak, onu gürültülü yapıp sonra gürültüsüz bir eser haline dönüştürmek olarak düşünülmemeli. Aynı işlem zaman boyutunda da yapılıyor. Yani zamanda da bir şeylerin düzenli olması, karelerin, bu üretilmiş olan resim karelerinin belli bir düzene sahip olması, belli bir akışa sahip olması gibi bir mantıkla çalışıyor diyebiliriz bu dünyada, bu Diffusion modelleri dünyasında.

Speaker A

Şöyle bir özetleyecek olursak biraz işin analojisiyle başladık. Heykeltıraş analojisiyle başladık. Bir mermerin içinden sanat eserini çıkarmak gibi yapay zekanın da gürültünün içinden bir eser çıkartması ve bu eseri çıkartırken bizim verdiğimiz prompt'larla yolunu bulması, aslında bir anlamda ona orkestra şefi gibi yol gösterici olmasından bahsettik. Diffusion sürecinde bir kaos yani gürültü ekleme süreci, birinci adım diyelim buna. Ve sonra da bu gürültünün kaldırılması, düzene getirilmesi sürecinden bahsettik. Latent Space'ten bizim kavram dünyamız, uzayımız, bağlamlar arasındaki ilişkiler arasındaki dünyamızdan bahsettik. Fikirlerin nasıl birbiriyle ilişkilendirildiğinden bahsettik. Prompt'un buradaki görevinden, yol göstericiliğinden bahsettik ve kısaca bu kavramlara bir görüntü üretme kavramına giriş yaptık. Generative AI'ın birinci modülü, temel kavramların içinde. Bir sonraki videomuzda bu görüntü dünyasında kullanılan diğer iki teknoloji yani GAN'lar ve VAE'lerden bahsedeceğim. Onların spoiler vermeyelim şimdilik onlar böyle gizemli kalmaya devam etsin. Bir sonraki videoda onları detaylıca inceleyeceğiz. Onlar da görüntü üretmek için kullanılan farklı teknikler ve sonunda da zaten üç yöntemi Diffusion, GAN ve VAE'yi karşılaştırıp artıları eksilerini beraber konuşuyor olacağız ama bir sonraki videoda bu görüntü üretme işleriyle devam etmek ve bir sonraki videoda görüşmek üzere.

Topics:Diffusion modelleriYapay zekaGenerative AIMetinden görsel üretimNoisingDenoisingLatent SpacePromptYapay sinir ağlarıÜretken yapay zeka

Frequently Asked Questions

Diffusion modelleri görsel üretim sürecinde nasıl çalışır?

Diffusion modelleri önce mevcut görsel veriye gürültü ekleyerek kaotik hale getirir, sonra bu gürültüyü temizleyerek (denoising) yeni ve düzenli görseller üretir.

Latent Space kavramı nedir ve neden önemlidir?

Latent Space, metin komutlarının bilgisayar tarafından anlamlı hale getirildiği gizli kavram uzayıdır. Bu uzay, yapay zekanın verilen metinlere uygun görseller üretmesini sağlar.

Diffusion modelleri gerçekten yaratıcı mıdır yoksa sadece taklit mi yapar?

Diffusion modelleri var olan sanat eserleri ve veriler üzerinden öğrenir ve yeni görseller üretir. Bu nedenle tamamen sıfırdan yaratıcı değil, öğrenilen verilerin kombinasyonunu sunar.

Get More with the Söz AI App

Transcribe recordings, audio files, and YouTube videos — with AI summaries, speaker detection, and unlimited transcriptions.

App Store Google Play

Or transcribe another YouTube video here →