काही दिवसांपूर्वी चॅट जीपीटीची जगभरात चर्चा झाली होती. या आर्टिफिशिअल इंटलिजन्सने सर्वांना चकीत करून सोडले होते. या कंपनीला मायक्रोसॉफ्टचे फंडिंग होते, आता खुद्द मायक्रोसॉफ्टने त्याहून खतरनाक AI मॉडल जगासमोर आणले आहे. याद्वारे तीन सेकंदांत कोणाचाही हुबेहुब आवाज काढता येणार आहे. तसेच लिहिलेले देखील वाचता येणार आहे.
मायक्रोसॉफ्टच्या AI VALL-E ची शक्ती इथपर्यंतच नाहीय, तर ते तुमच्या लिहिलेल्या ओळींना इमोशनल टच देखील देऊ शकणार आहे. याचा वापर एकदिवस हाई-एंड टेस्ट-टू-स्पीच एप्लिकेशनमध्ये केला जाणार आहे.
VALL-E हा मायक्रोसॉफ्टचा एक प्रकल्प आहे. यास कंपनी न्यूरल कोडेक भाषा मॉडेल असे म्हणतेय. VALL-E ला कसे प्रशिक्षण दिले गेले हे यावर काम करणाऱ्या तंत्रज्ञांनी सांगितले आहे. या AI मॉडेलने 7 हजारांहून अधिक भाषिकांकडून 60 हजार तासांहून अधिक इंग्रजी भाषेचे भाषण प्रशिक्षण घेतले आहे. हे एआय ज्या व्यक्तीचा आवाज आत्मसात करून ऐकवते तो मूळ आवाजाशी साधर्म्य असणारा असतो.
असे झाले तर वक्त्यासाठी लिहिलेले भाषण VALL-E त्याच्या आवाजात सहज वाचू शकेल. ते भाषण यंत्रासारखे नाही तर माणसासारखे वाचू शकते. अशा परिस्थितीत याचा डीपफेकसारखा गैरवापरही होऊ शकतो. कंपनीने देखील हे मान्य केले आहे.
संशोधकांच्या टीमने ते VALL-E च्या Github वर एक व्हिडीओ पोस्ट केला आहे. यामध्ये ते कसे काम करते ते दाखविले आहे. जेव्हा स्पीकर इको एरर प्ले करतो, तो आवाज एआयने आपल्या आवाजात मिक्स केल्याचे दिसत आहे. कंपनी यावर अजून काम करणार आहे.