MyShell, önde gelen akademik kurumlarla iş birliği yaparak, OpenVoice adında yenilikçi bir açık kaynak ses klonlama aracı başlattı. Bu araç, AI ses kopyalama endüstrisinde hızlı işleme ve detaylı özelleştirme özellikleri sunarak öncülük ediyor.
Massachusetts Teknoloji Enstitüsü, Tsinghua Üniversitesi ve Kanada’dan MyShell arasındaki ortaklıkla geliştirilen bu teknoloji, hızlı işlevselliği ve sesin duygu, aksan ve ritim gibi unsurlarının ince ayar yapılabilmesiyle dikkat çekiyor.
MyShell, araştırma makalesi sağlayarak ve web uygulaması ve HuggingFace üzerinden kullanıcı erişimi sunarak şeffaflığı benimsiyor ve ses teknolojisi deneyleri için açık bir ekosistem oluşturmayı teşvik ediyor. AI araştırma alanını kaynaklar ve destekle zenginleştirmeye adanmışlar ve ‘Herkes İçin AI’ felsefesini savunuyorlar.
OpenVoice, kişiselleştirilmiş ses üretimine izin veren güçlü bir ses klonlama modeli sunarak, AGI için ses teknolojisindeki sınırları zorlamayı hedefliyor. Bu teknoloji, insan konuşmasını fonemlere dönüştürerek kullanıcının sesini duygusal nüanslarla yeniden yaratmayı sağlayan çift model sistemine dayanıyor.
Ekibin açıklamasına göre, birçok dil ve stile anında uyum sağlayabilen, bugüne kadar karmaşıklık nedeniyle ulaşılamamış bir başarı olan en uyumlu anlık ses klonlama modelini yaratma hedefindeler. Karmaşık bir görevi yönetilebilir alt görevlere ayırarak etkili ve basit bir yaklaşım sunuyorlar.