Videoların yüksek kalitesi, detaylı dokuları, dinamik sahne geçişleri ve kamera hareketleriyle, bu videoların yapay zeka tarafından üretildiğini anlamak zorlaşıyor. OpenAI’nin CEO’su Sam Altman, Sora’nın yeteneklerini sergilemek amacıyla kullanıcıların önerdiği videoları X platformunayükledi.OpenAI tarafından paylaşılan örnek videolar arasında, kullanıcıların yazılı komutlarına yanıt olarak Sora tarafından herhangi bir düzenleme yapılmadan oluşturulan ‘bir fincan kahve içinde savaşan iki korsan gemisi’ ve ‘California’nın altına hücum dönemine ait tarihi görüntüler’ bulunmaktadır
Sora’nın Çalışma Prensibi Nedir?
Sora, ‘difüzyon dönüşüm modeli’ adı verilen bir yöntemle metin ve görüntü oluşturma tekniklerini entegre eder. Dönüşüm modelleri, Google’ın 2017 yılında tanıttığı ve ChatGPT ile Google Gemini gibi büyük dil modellerinde kullanılan bir tür sinir ağı teknolojisidir. Diğer yandan, difüzyon modelleri, çoğu AI tabanlı resim jeneratörünün temelini oluşturur. Bu modeller, rastgele gürültüden başlayarak, kullanıcının komutlarına uygun net bir görüntüye doğru iteratif adımlarla ilerler. Böylece, bu tür görüntülerin ardışık dizilimi ile bir video oluşturulur. Videoların her bir karesinde tutarlılık ve uyum sağlanması önemlidir.
Sora, metinlerden videolara dönüşümü sağlayan bir yapay zeka modelidir ve karelerin birbirleriyle ilişkilendirilmesini yönetmek için dönüşüm mimarisini kullanır. Bu mimari, öncelikle metni temsil eden simgelerdeki kalıpları bulma amacıyla tasarlanmışken, Sora zaman ve mekanı temsil eden daha spesifik simgeler kullanır.
Sora, ilk metin-ten-video modeli değildir. Öncü modeller arasında Meta’nın Emu’su, Runway’in Gen-2’si, Stability AI’nin Stable Video Diffusion’ı ve yakın zamanda Google’ın Lumiere’i yer alır. Lumiere, piyasaya sürüldükten kısa bir süre sonra, önceki modellere göre daha iyi video üretim kapasitesine sahip olduğunu iddia etmişti. Ancak, Sora bazı yönlerden Lumiere’den daha üstün özellikler gösterir.
Sora’nın Teknik Özellikleri
Sora, 1920 × 1080 piksel çözünürlüğe kadar ve çeşitli en-boy oranlarında videolar üretebilirken, Lumiere yalnızca 512 × 512 piksel çözünürlük sunar. Lumiere videoları yaklaşık 5 saniye sürerken, Sora 60 saniyeye kadar video oluşturabilir. Ayrıca, Lumiere birden fazla çekim içeren videolar yapamazken, Sora bu yeteneğe sahiptir. Sora, diğer modeller gibi, resimlerden veya diğer videolardan video oluşturma, farklı videolardan unsurları birleştirme ve videoları zaman içinde uzatma gibi çeşitli video düzenleme görevlerini yerine getirebilir.
Video içerik üretimi genellikle gerçek dünya kayıtları veya özel efektler kullanılarak yapılır; her iki yöntem de maliyetli ve zaman alıcı olabilir. Eğer Sora makul bir fiyata sunulursa, insanlar fikirlerini çok daha düşük maliyetle görselleştirmek için bu teknolojiyi prototip yazılım olarak kullanabilirler. Sora’nın yetenekleri, eğlence, reklamcılık ve eğitim gibi alanlarda kısa videolar oluşturmak için kullanılabilir.
OpenAI, Sora hakkında “Video generation models as world simulators” başlıklı bir teknik makale yayınlamıştır. Bu makalede, Sora gibi video jeneratörlerinin daha büyük versiyonlarının fiziksel ve dijital dünyaları, içinde yaşayan nesne, hayvan ve insanları simüle edebileceği belirtilir. Bu simülasyonlar, fiziksel, kimyasal ve toplumsal deneyler için bilimsel uygulamalara imkan tanıyabilir, örneğin farklı büyüklüklerdeki tsunami etkilerinin altyapılar ve insan sağlığı üzerindeki etkileri simüle edilebilir. Ancak bu düzeyde bir simülasyon son derece zorlayıcıdır ve bazı uzmanlar, bir sistemin bunu başarabileceğine şüpheyle yaklaşmaktadır.