Microsoft, Görüntü Anlama ve Görsel Bulmaca Çözme İçin Yapay Zeka Modelini Açıkladı


Büyüt / Göz küresi olan elektronik bir beynin yapay zeka tarafından oluşturulmuş bir görüntüsü.

Ars Teknik

Pazartesi günü, Microsoft’tan araştırmacılar içerik için görüntüleri analiz edebilen, görsel bulmacaları çözebilen, görsel metin tanıma gerçekleştirebilen, görsel IQ testlerini geçebilen ve doğal dil talimatlarını anlayabilen çok modlu bir model olan Kosmos-1’i tanıttı. Araştırmacılar, metin, ses, görüntü ve video gibi farklı girdi modlarını bütünleştiren çok modlu yapay zekanın, insan düzeyinde genel görevleri yerine getirebilen yapay genel zeka (AGI) oluşturmak için önemli bir adım olduğuna inanıyor.

İstihbaratın temel bir parçası olan multimodal algı yapaya ulaşmak için bir gerekliliktir Genel zekabilgi edinme açısından ve gerçek dünyaya temellendirme,” diye yazıyor araştırmacılar akademik makalelerinde, “İhtiyacınız Olan Tek Şey Dil Değildir: Algıyı Dil Modelleri ile Hizalamak.”

Kosmos-1 makalesinden alınan görsel örnekler, modelin görüntüleri analiz ettiğini ve bunlarla ilgili soruları yanıtladığını, bir görüntüden metin okuduğunu, görüntüler için altyazı yazdığını ve yüzde 22-26 doğrulukla görsel bir IQ testi yaptığını gösteriyor (daha fazlası aşağıda).

Medya büyük dil modelleri (LLM) ile ilgili haberlerle dolup taşarken, bazı yapay zeka uzmanları, görünüşte herhangi bir entelektüel görevde (ve herhangi bir entelektüel işte) insanların yerini alabilecek varsayımsal bir teknoloji olan genel yapay zekaya giden potansiyel bir yol olarak çok modlu yapay zekaya işaret ediyor. . AGI, Microsoft’un AI alanındaki önemli bir iş ortağı olan OpenAI’nin belirtilen hedefidir.

Bu durumda Kosmos-1, OpenAI’nin katılımı olmayan saf bir Microsoft projesi gibi görünüyor. Araştırmacılar, yarattıkları şeyi “çok modlu büyük dil modeli” (MLLM) olarak adlandırıyorlar çünkü kökleri, ChatGPT gibi salt metin LLM gibi doğal dil işlemeye dayanıyor. Ve şunu gösteriyor: Kosmos-1’in görüntü girişini kabul etmesi için, araştırmacıların önce görüntüyü LLM’nin anlayabileceği özel bir simge dizisine (temelde metin) çevirmesi gerekir. Kosmos-1 makalesi bunu daha ayrıntılı olarak açıklıyor:

Reklamcılık

Giriş formatı için girişi özel belirteçlerle süslenmiş bir dizi olarak düzleştiririz. Spesifik olarak, dizinin başlangıcını ve sonunu belirtmek için ve kullanırız. ve özel belirteçleri, kodlanmış görüntü yerleştirmelerin başlangıcını ve sonunu gösterir. Örneğin, “ belge ” bir metin girişidir ve “ paragraf Resim Gömme paragraf ” serpiştirilmiş bir resim-metin girişidir.

… Hem metin belirteçlerini hem de diğer giriş yöntemlerini vektörlere kodlamak için bir katıştırma modülü kullanılır. Daha sonra gömmeler kod çözücüye beslenir. Girdi belirteçleri için, onları yerleştirmelere eşlemek için bir arama tablosu kullanırız. Sürekli sinyallerin (örneğin, görüntü ve ses) biçimleri için, girdileri ayrık kod olarak temsil etmek ve ardından onları “yabancı diller” olarak kabul etmek de mümkündür.

Microsoft, Kosmos-1’i The Pile (800 GB İngilizce metin kaynağı) ve Common Crawl’dan alıntılar da dahil olmak üzere web’den alınan verileri kullanarak eğitti. Eğitimden sonra, Kosmos-1’in yeteneklerini dil anlama, dil oluşturma, optik karakter tanıma gerektirmeyen metin sınıflandırma, resim alt yazısı, görsel soru yanıtlama, web sayfası soru yanıtlama ve sıfır atış görüntü sınıflandırma dahil olmak üzere çeşitli testlerde değerlendirdiler. Microsoft’a göre, bu testlerin çoğunda Kosmos-1 mevcut son teknoloji ürünü modellerden daha iyi performans gösterdi.

Kosmos-1'in çözmekle görevlendirildiği Raven IQ testinin bir örneği.

Büyüt / Kosmos-1’in çözmekle görevlendirildiği Raven IQ testinin bir örneği.

Microsoft

Kosmos-1’in görsel IQ’yu bir dizi şekil sunarak ve sınava giren kişiden bu diziyi tamamlamasını isteyerek ölçen Raven’s Progressive Reasoning’deki performansı özellikle ilgi çekicidir. Kosmos-1’i test etmek için, araştırmacılar her seferinde bir doldurulmuş test yaptılar ve her seçenek tamamlandı ve cevabın doğru olup olmadığını sordular. Kosmos-1, Raven testindeki bir soruya yalnızca yüzde 22 oranında doğru cevap verebildi (yüzde 26 ince ayar ile). Bu kesinlikle bir smaç değildir ve metodolojideki hatalar sonuçları etkileyebilirdi, ancak Kosmos-1, Raven IQ testinde rastgele şansı (yüzde 17) yendi.

Yine de, Kosmos-1 çok modlu alandaki ilk adımları temsil etse de (başkaları tarafından da izlenen bir yaklaşım), yapay zeka modellerinin her tür medyayı algılamasına ve buna göre hareket etmesine izin vererek gelecekteki optimizasyonların daha da önemli sonuçlar getirebileceğini hayal etmek kolaydır. yapay asistanların yeteneklerini büyük ölçüde artıracak. Araştırmacılar, gelecekte Kosmos-1’i model boyutunda büyütmek ve konuşma kabiliyetini de entegre etmek istediklerini söylüyorlar.

Microsoft, Kosmos-1’i geliştiricilerin kullanımına sunmayı planladığını söylüyor, ancak makalenin alıntı yaptığı GitHub sayfasında bu hikayenin yayınlanması üzerine Kosmos’a özgü belirgin bir kod yok.


Kaynak : https://insidexpress.com/technology/microsoft-unveils-ai-model-for-image-understanding-and-visual-puzzle-solving/?utm_source=rss&utm_medium=rss&utm_campaign=microsoft-unveils-ai-model-for-image-understanding-and-visual-puzzle-solving

Yorum yapın

SMM Panel PDF Kitap indir