Küresel teknoloji şirketi Yandex, büyük dil modellerinin (LLM'ler) eğitimi için yeni bir açık kaynak yöntemi olan YaFSDP'yi tanıttı. YaFSDP şu anda GPU iletişimini geliştirmek ve LLM eğitiminde bellek kullanımını azaltmak için en yaygın kullanılan yöntemi temsil etmektedir. Yöntem, mimariye ve parametre sayısına bağlı olarak FSDP'ye göre %26'ya varan hızlanma sunuyor. YaFSDP kullanarak LLM eğitim süresini azaltmak, GPU kaynaklarında %20'ye kadar tasarruf sağlayabilir. Küresel yapay zeka topluluğunun gelişimine önemli bir katkı sağlamak amacıyla Yandex, YaFSDP'yi dünya çapındaki Yüksek Lisans geliştiricilerinin ve yapay zeka meraklılarının kullanımına sundu. Yandex' Kıdemli bir geliştirici olarak hizmet vermektedir ve YaFSDP'nin arkasındaki ekibin bir parçasıdır Mihail Kruşçev, şunları söyledi: “YaFSDP'nin çok yönlülüğünü genişletmek için şu anda aktif olarak çeşitli model mimarileri ve parametre boyutları üzerinde denemeler yapıyoruz. “LLM eğitimindeki ilerlemelerimizi küresel makine öğrenimi topluluğuyla paylaşmaktan ve dünya çapındaki araştırmacılar ve geliştiriciler için daha fazla erişilebilirlik ve verimliliğe katkıda bulunmaktan heyecan duyuyoruz.”YaFSDP'nin Türkiye'deki dil modeli geliştirme projelerine katkıları Türkiye'deki çeşitli teknolojik ve finansal kuruluşlar Türkçe dil modelleri geliştirmekte ve bu alanda dünya çapında büyük projeler hayata geçirmektedir. Türkiye'de geliştirilen bu büyük dil modelleri, Yandex'in sunduğu YaFSDP yöntemi ile önemli faydalar sağlayabilmektedir. YaFSDP'nin sunduğu GPU tasarrufu ve eğitim hızlandırmaları, bu projelerin daha verimli ve uygun maliyetli uygulanmasına katkıda bulunabilir. Özellikle GPU kaynaklarında %20'ye varan tasarruf sağlamak ve dil modeli eğitimi sırasında %26'ya varan hızlanma elde etmek, bu projeleri ekonomik ve operasyonel açıdan daha sürdürülebilir hale getirebilir.Neden YaFSDP tercih edilmeli?LLM'leri incelemek zaman ve kaynak yoğun bir süreçtir. Kendi LLM'lerini geliştirmek isteyen makine öğrenimi mühendisleri ve şirketlerin, bu modellerin eğitimine önemli miktarda zaman ve GPU kaynağı ve dolayısıyla para ayırması gerekir. Model ne kadar büyük olursa, onu eğitmek o kadar fazla zaman ve maliyet alacaktır.Yandex YaFSDP, GPU iletişimindeki verimsizliği ortadan kaldırır, GPU etkileşimlerini optimize eder ve eğitimin yalnızca gerektiği kadar işlem belleği kullanmasını sağlar.YaFSDP, öğrenme hızını ve performansını optimize ederek dünya çapındaki yapay zeka geliştiricilerinin modellerini eğitirken daha az bilgi işlem gücü ve GPU kaynağı kullanmasına yardımcı olur. Örneğin, 70 milyar parametreli bir modeli içeren bir ön eğitim senaryosunda YaFSDP'nin kullanılması potansiyel olarak yaklaşık 150 GPU kaynağına eşdeğer tasarruf sağlayabilir. Bu az çok işe yarıyor 500.000 $'dan 1,5 milyon $'a kadar tasarruf anlamı.YaFSDP eğitiminin verimliliğiFSDP'nin geliştirilmiş bir versiyonu olan YaFSDP, LLM eğitiminin ön eğitim, hizalama ve ince ayar gibi iletişim yoğun aşamalarında FSDP yönteminden daha iyi performans gösterir. YaFSDP'nin Llama 2 ve Llama 3'teki nihai hızlandırılması, Llama 2 70B ve Llama 3 70B'de sırasıyla %21 ve %26'ya ulaşarak eğitim hızında önemli gelişmeler olduğunu göstermektedir. Mikhail Kruşçev şunları söyledi: “YaFSDP 13 ila 70 milyar parametre sağlıyor. Farklı modellerde etkileyici sonuçlar sergilediler ve 30 ila 70 milyar aralığında özellikle olumlu sonuçlar elde ettiler. YaFSDP, Yandex'in ilk açık kaynak aracı değil, “YaFSDP, LLaMA mimarisine dayanan, şu anda yaygın olarak kullanılan açık kaynak modelleri arasında en uygun olanıdır” diyor. Şirket daha önce ML topluluğunda popüler hale gelen diğer araçları paylaşmıştı:
- CatBoost, karar ağaçlarında eğimi artırmaya yönelik yüksek performanslı bir kütüphanedir.
- YTsaurus, dağıtılmış depolama ve işleme için büyük veri platformu.
- AQLM, Yandex Research, HSE Üniversitesi, Skoltech, IST Avusturya ve NeuralMagic tarafından ortaklaşa geliştirilen, büyük dil modellerinin aşırı sıkıştırılmasına yönelik en gelişmiş niceleme algoritmasıdır.
- Petals, Yandex Research, HSE Üniversitesi, Washington Üniversitesi, Hugging Face, ENS Paris-Saclay ve Yandex Veri Analiz Okulu ile işbirliği içinde geliştirilen, LLM'lerin eğitim ve ilerleme sürecini basitleştirmek için tasarlanmış bir kütüphanedir.
Kaynak: (guzelhaber.net) Güzel Haber Masası
—–Sponsorlu Bağlantılar—–