Нейронна мережа освоїла наслідування голосу людини після прослуховування трьох -секундних семи

Microsoft представила алгоритм Vall-E-an на основі AI, здатного моделювати голос людини після прослуховування 3-секундного звукового запису. Поки вихідний код програми недоступний у публічному доступі, але корпорація вже може похвалитися десятками прикладів алгоритму, які дають уявлення про якість мови.
Vall-E був побудований на основі нейронної мережі, яка пройшла навчання на 60 000 годин розмовної англійської мови. Microsoft не каже, чи алгоритм випустить вільний доступ. Модно знайти більше інформації про функціонування алгоритму в Дослідження університету Корнелла . Зразки синтезованих голосів знаходяться в github . Нейронна мережа освоїла наслідування голосу людини після прослуховування трьох -секундних семи