Microsoft के अनुसार, VALL-E मुख्य रूप से एक “न्यूरल कोडेक लैंगुएज मॉडल” है और EnCodec पर आधारित है, जिसे Meta ने अक्टूबर 2022 में पेश किया था। VALL-E अन्य टेक्स्ट-टू-स्पीच द्वारा आमतौर पर वेवफॉर्म में हेरफेर करके स्पीच में बदलने के विपरीत टेक्स्ट और अकूस्टिक संकेतों से ऑडियो कोडेक कोड को अलग निकालता है। यह समझता है कि किसी व्यक्ति की आवाज कैसी और उसके बोलने का अंदाज कैसा है और EnCodec का उपयोग कर जरूरी डेटा कंपोनेंट (जिन्हें ‘टोकन’ नाम दिया गया है) और फिर ट्रेनिंग डेटा का इस्तेमाल करता है।
इस तरह ये सिस्टम उस व्यक्ति की आवाज के साथ उसके बोलने के लहजे को भी समझ जाता है और फिर लिखे गए किसी भी टेक्स्ट को हूबहू उस व्यक्ति की आवाज और उसके बोलने के अंदाज की तरह बोल सकता है।
Microsoft ने Meta की LibriLight ऑडियो लाइब्रेरी का उपयोग करके VALL-E की स्पीच सिंथेसिस कार्यात्मकताओं को ट्रेनिंग दी है। इसमें 7,000 से अधिक वक्ताओं के 60,000 घंटे के अंग्रेजी भाषा के भाषण शामिल हैं, जो मुख्य रूप से लिब्रीवॉक्स पब्लिक डोमेन ऑडियोबुक से प्राप्त किए गए हैं। एक अच्छा रिजल्ट देने के लिए VALL-E के लिए तीन-सेकंड के नमूने में मौजूद आवाज उसके लर्निंग एल्गोरिदम में मौजूद आवाज के समान होनी चाहिए।
VALL-E के जरिए कोई गलत काम न हो या कोई व्यक्ति इसे किसी और के लिए गलत इरादे से इस्तेमाल न करे, इसलिए Microsoft ने VALL-E कोड को दूसरों के लिए उपलब्ध नहीं कराया है। ऐसा प्रतीत होता है कि रिसर्चर्स इस तकनीक के कारण होने वाले संभावित सामाजिक नुकसान से अवगत हैं