Stability AI, metin tabanlı açıklamalarla görüntü oluşturmak için yeni nesil bayrak gemisi yapay zeka modeli olan Stable Diffusion 3.0'ın ön sürümünü piyasaya sürdü. Stable Diffusion 3.0, 800 milyon ila 8 milyar parametre arasında değişen boyuttaki yapay zeka tabanlı farklı sürümlerde sunulacak.
Stability AI, geçen yıl boyunca sürekli olarak geliştirilen ve piyasaya sürülen bir dizi yapay zeka üzerinde çalıştı. Her biri giderek artan bir karmaşıklık ve kalite seviyesi gösteren bu yapay zeka, Temmuz ayında piyasaya sürülen SDXL'in temel Stable Diffusion modelini önemli ölçüde iyileştirdi ve şimdi şirket daha da ileri gitmeyi planlıyor.
Yeni Özellikler ve İyileştirmeler
Stable Diffusion 3.0'ın amacı, karmaşık ipuçlarından görüntüler oluştururken kaliteyi artırmak ve performansı iyileştirmektir. Yeni model, önceki Stable Diffusion sürümlerinden daha iyi bir tipografi sağlayarak, oluşturulan görüntülerin içindeki metni daha doğru bir şekilde yazmayı hedefliyor. Önceki sürümlerde tipografi, Stable Diffusion'ın zayıf noktasıydı ve diğer yapay zeka sanatçılarında da aynı durum söz konusuydu.
Yeni Bir Yaklaşım: Difüzyon Modelleri-Transformatörler
Stable Diffusion 3.0, yeni bir mimariye dayanan yeni bir modeldir. Stability AI Genel Müdürü Emad Mostaque'a göre, Stable Diffusion 3, son zamanlarda tanıtılan OpenAI Sora modelinde kullanılan bir mimariye dayanan bir difüzyon modeli-transformatörüdür. Bu, orijinal Stable Diffusion'ın gerçek bir halefidir.
Farklı Yaklaşımlar ve İnovasyonlar
Stability AI, görüntüler oluşturmak için birkaç farklı yaklaşımı deniyor. Bu ayın başlarında, şirket, performansı ve doğruluğu artırmak için Würstchen mimarisini kullanan Stable Cascade'ın ön sürümünü piyasaya sürdü. Stable Diffusion 3.0 ise difüzyon modelleri-transformatörler kullanıyor. Bu yeni yaklaşım, Stable Diffusion için önceden kullanılmayan bir yöntemdir.
Yeniliklerin Önemi: Akış Eşleştirme ve Tipografi
Stable Diffusion 3.0'ın gelişmiş tipografisi, Stability AI tarafından yeni modele entegre edilen bir dizi iyileştirmenin sonucudur. Mostaque'a göre, görüntülerdeki metinlerin kaliteli bir şekilde oluşturulması, difüzyon model-transformatörü ve ek kodlayıcılar sayesinde mümkün hale gelmiştir. Stable Diffusion 3.0 ile artık görüntülerde tutarlı bir metin stiliyle tam cümleler oluşturmak mümkün olacak.
Gelecek ve Genişleme
Stable Diffusion 3.0, metinden görüntüye dönüştürme teknolojisi olarak başlasa da, asıl hedef çok daha büyük. Stability AI son aylarda, 3D görüntüler ve videolar oluşturmak için yapay zeka geliştirecek. Mostaque'a göre, "Her yerde kullanılabilen ve her türlü ihtiyaca uyarlanabilen açık modeller geliştiriyoruz. Bu, görsel olarak daha karmaşık modellerin, video, 3D ve diğerlerinin temelini oluşturacak bir dizi farklı boyutta modeldir."