L-MAGIC: Dil Modeli Destekli Uyumlu Panoramik Görüntü Üretimi

31 okunma — 11 Haziran 2024 16:44
avatar

admin

  • e 0

    Mutlu

  • e 0

    Eğlenmiş

  • e 0

    Şaşırmış

  • e 0

    Kızgın

  • e 0

    Üzgün

Günümüz yapay zeka teknolojisindeki ilerlemelere rağmen, tek bir giriş görüntüsünden 360 derece panoramik sahneler oluşturmak hala önemli bir zorluk olarak kalıyor. Intel Labs’tan araştırmacıların önerdiği L-MAGIC, dil modellerini kılavuz olarak kullanarak, uyumlu panoramik görüntüler üreten yenilikçi bir yöntem sunuyor.

Yaklaşım

L-MAGIC, ince ayar yapmadan önceden eğitilmiş difüzyon ve dil modellerini kullanıyor, böylece sıfır ayar performansı sağlıyor. Çıktı kalitesi, süper çözünürlük ve çok görünümlü birleştirme teknikleriyle daha da artırılıyor.

Dil Modellerinin Kullanımı

Mevcut yöntemlerin aksine, L-MAGIC dil modellerini, global sahne düzeni önbilgisi sağlamak için kullanıyor. Bu, yinelemeli veya eş zamanlı çok görünümlü dolgu yöntemlerinde karşılaşılan, tekrarlanan nesneler (örneğin, bir yatak odasındaki çoklu yataklar) ve her görünüm için gereken zaman alan insan metin girişleri sorunlarını çözüyor.

Uyumlu Panoramik Oluşturma

L-MAGIC‘in özü, 360 derece panoramik bir sahnenin birbirleriyle uyumlu görünümlerinin difüzyon tabanlı üretimidir. Dil modeli kılavuzluğunu dahil ederek, sistem, ilgili çalışmalara kıyasla daha iyi sahne düzenleri ve perspektif görünüm kalitesiyle panoramik sahneler üretebiliyor.

Çeşitli Girdi Modelleri

Koşullu difüzyon modelleriyle birleştirilerek, L-MAGIC, metin, derinlik haritaları, eskizler ve renkli betikler gibi çeşitli girdi modellerini kabul edebiliyor. Derinlik tahmininin uygulanması, 3B nokta bulutu oluşturma ve akıcı kamera hareketleriyle dinamik sahne keşfini de mümkün kılıyor.

Değerlendirme ve Sonuçlar

Kapsamlı deneyler, oluşturulan panoramik sahnelerin, ilgili çalışmalara kıyasla daha iyi sahne düzenleri ve perspektif görünüm kalitesine sahip olduğunu, ayrıca insan değerlendirmelerinde %70’in üzerinde tercih edildiğini gösteriyor.

Potansiyel Uygulamalar

L-MAGIC, sanal turizm, film yapımı, oyun ve iç mimari gibi çeşitli endüstrilerde, çeşitli girdi modellerinden yola çıkarak, kapsayıcı ve uyumlu panoramik sahnelerin oluşturulmasını sağlayarak devrim yaratma potansiyeline sahip.

Yazarlar Hakkında

L-MAGIC makalesi, Zhipeng Cai, Matthias Müller, Reiner Birkl, Diana Wofk, Shao-Yen Tseng, JunDa Cheng, Gabriela Ben-Melech Stan, Vasudev Lal ve Michael Paulitsch’ten oluşan Intel Labs araştırmacıları tarafından kaleme alındı. Bu çalışma, 2024 yılında IEEE/CVF Bilgisayarlı Görü ve Örüntü Tanıma Konferansı’nda (CVPR) sunuldu.

Video Sunumu

REKLAM
X
  • Site İçi Yorumlar

En az 10 karakter gerekli