Четвер, 4 червня

Чи можливо колись побачити, як Дональд Трамп заспіває українські колядки? Звучить як фантастика, однак із проєктом українських розробників можливо «змусити» будь-кого «говорити» будь-що. Розповідаємо про Respeecher та неочікувані здібності штучного інтелекту. 

Respeecher – українська компанія, котра вже два роки працює над штучним інтелектом, здатним синтезувати голос будь-якої людини. Нині українці вже мають контракт із голлівудською студією, котра активно застосовує їхню технологію в кіно. А ще відео з демонстрацією можливостей розробки збирають тисячі переглядів на YouTube. 

Як це працює і виглядає насправді? Дивіться, ось є відео, на якому для багатьох відбувається щось вкрай дивне: президент США у 1969-1974 роках Річард Ніксон розповідає про загибель астронавтів місії «Аполон-11», котра в 1969 році мала першою доставити людей на місяць. 

Що дивного? Насправді ж місія пройшла цілком успішно, ніхто з астронавтів не загинув. Та й, зрештою, Ніксон. Не говорить. Відео – підробка, створена у Массачусетському інституті технологій. Фактично колишнього президента США «змусили» зачитати промову, написану на випадок провалу космічної місії, але з якою Ніксон так ніколи і не вийшов на публіку. 

Для створення цього відео автори використали дві основні технології. Одна з них – штучний інтелект від компанії Canny Al, який змінив архівний відеозапис справжньої промови Ніксона так, аби губи та міміка рухалися відповідно до тексту, який звучить. А ось за «голос Ніксона» відповідав якраз штучний інтелект від української команди Respeecher. 

Тестова «промова» експрезидента США привернула чимало уваги до себе: огляди та статті у провідних виданнях про технології та навіть участь ролику на Міжнародному фестивалі документального кіно в Амстердамі. 

Насправді ж на місці Річарда Ніксона міг бути будь-хто: Дональд Трамп, Барак Обама, Петро Порошенко, Володимир Зеленський, ваша перша шкільна вчителька чи навіть ви. 

Як? Respeecher може навчитися імітувати практично будь-який голос. Для початку потрібні дві аудіодоріжки. На першій – запис власне голосу людини. На другій – запис актора, котрий слово в слово повторює вимовлений на першій доріжці текст. 

Отримавши обидва записи, програма починає тренуватися, порівнювати обидві доріжки і розуміти, чим голоси відрізняють між собою. Встановивши відмінності, Respeecher здатен «говорити» необхідним голосом будь-що, що зачитає актор. А тому голосом Ніксона цілком міг прозвучати переклад якоїсь поезії Стуса чи Франка. 

Для того щоб програма українських розробників спрацювала максимально ефективно, їй потрібно проаналізувати принаймні годину запису цільового голосу – того, що потрібно зімітувати. За цей час Respeecher «почує» вдосталь слів та звукосполучень, проаналізує особливості голосу та встановить, як їх відтворювати. Тип голосу не має жодного значення: високий голос можна змінити на низький, жіночий – на чоловічий, дорослий – на дитячий тощо. 

«На ринку є два основні підходи до синтезування голосу. Більшість продуктів працює за принципом text to speech, коли голос генерується з тексту. Ми принципово від них відрізняємося: Respeecher синтезує потрібний голос з голосу іншої людини», пояснює співзасновник проєкту Олександр Сердюк у розмові з виданням BBC. 

Українці навчили штучний інтелект імітувати будь-який голос: як це працює?

Засновники Respeecher

«Такий підхід більш ефективний. Коли ти генеруєш голос із тексту, твої можливості дуже обмежені. Ти не маєш змоги контролювати емоційне забарвлення голосу і результат виходить дещо механічним. У нас цю проблему вирішує актор, який може підібрати потрібні інтонації», – додає Олександр. 

Сердюк запевняє: інструменти, які просто синтезують голос із тексту, часом потребують до 20 годин запису цільового голосу, щоб натренувати штучний інтелект. Respeecher може впоратися за годину. 

Розробники запевняють: потенційні можливості використання програми вкрай широкі: від створення кіно чи реклами до застосування Respeecher в індустрії відеоігор. Наприклад, можливо синтезувати голос історичної фігури для фільми чи озвучити книгу голосом якоїсь зірки без її безпосередньої участі. 

«Є багато замовників, які хотіли б використовувати у своїх проєктах голоси відомих акторів чи співаків. Але той-таки Snoop Dogg, наприклад, навряд чи буде в захваті від ідеї два тижні просидіти в студії лише для того, щоб його голос з’явився в якійсь відеогрі. Зрештою, йому може просто бракувати на це часу. Наш інструмент дозволить іншому актору зробити всю роботу за нього», пояснює Олександр Сердюк виданню ВВС. 

«Серед кіношників є великий інтерес, аби оригінальні голоси акторів зберігалися при дублюванні фільмів іншими мовами. Тобто, щоб герой Тома Хенкса говорив голосом Тома Хенкса не лише в англомовній версії фільму щоб він буквально заговорив українською, російською або німецькою. Поки що наша технологія не дозволяє цього зробити, але ми дивимося у цьому напрямку», – долає співзасновник Respeecher. 

Зараз розробники працюють над покращенням діапазону емоцій, які здатні синтезувати штучний інтелект. Для Respeecher вкрай легко справитися зі спокійним голосом, однак крик чи спів поки що викликають певні труднощі. 

Окрім того, у планах команди проєкту – зробити так, аби процес синтезування голосу відбувався в режимі реального часу. За планом вирішити це можна приблизно за пів року. Водночас у команді активно працюють над тим, аби, змінюючи голос, нівелювати акцент його носія. 

«Наприклад, багато кол-центрів західних компаній розташовані за межами США, звідки оператори й обслуговують американських клієнтів. Вони говорять англійською, але з відчутним акцентом, і компанії дуже зацікавлені в технології, яка б дозволила мінімізувати його в реальному часі», – пояснюють у Respeecher. 

Команда проєкту обіцяє зробити все, аби доступ до технології залишався обмеженим. 

«Просто прийти із проханням відтворити чийсь голос не можна. Ми вимагаємо згоду власника цільового голосу. Якщо ця людина вже померла згоду його родичів або інших правовласників. Доступу до нашої технології клієнти, з якими ми працюємо, не мають», запевняють представники Respeecher. 

Участь команди в експерименті з відеозверненням Ніксона співзасновник проєкту пояснює так: головною метою було донести світу, що можливості технологій сьогодні вкрай серйозні, і непогано бодай знати, що таке можливе вже сьогодні. 

«Побоювання не безпідставні, але люди завжди схильні дещо перебільшувати. Поки що реалістичне синтезування голосу це процес, що потребує доволі значних ресурсів. Є серйозні вимоги до якості записів, є великий обсяг роботи, який потрібно виконати, є чимало інших аспектів, що впливають на результат. Технологія поки що не на тому рівні, коли будь-хто з легкістю може її використати в якихось нехороших цілях», переконаний співзасновник Respeecher.

Текст: Дмитро Журавель

Залишити коментар