Чујем мртве људе? технологија природног језика оживљава прошле и садашње гласове

2025

Преглед садржаја:

Велике промене у НЛП-у
Узбудљиве креације „Текст на глас“ на ВивоТект-у
Умјетни глас у маркетингу
Ваш глас живи даље
2525

Ових дана већина компјутерских гласова је пролазна. Вероватно се не осећате превише о киборговима и роботима кад чујете „дроида“ на вашем телефону који вам помаже у плаћању рачуна или вас пита које одељење желите. Али шта ако изненада чујете како вас Курт Цобаин добавља за информације о картици? Или вам Јохн Ф. Кеннеди говори о чудима превременог гласања? Или ће Елвис добити своје име и адресу пре него што се упусти у "труп, комад бурне љубави?"

Све би ово било … помало чудно, али оно што је још фасцинантније је да је технологија у основи већ овде. Пре само деценију или отприлике, задивила нас је способност рачунара да уопште говори. Сада ћемо се опчинити слободним гласом, рачунарским гласовима који звуче као људи које познајемо.

Велике промене у НЛП-у

Ако обраћате пажњу на област обраде природног језика (НЛП), можда сте чули за неке недавне напретке који надилазе врсте конзервираних виртуалних гласова помоћника које сада чујемо у нашим глобалним системима за позиционирање (ГПС) и аутоматизованом пословању. телефонске линије.

За почетак НЛП-а било је потребно читаво пуно истраживања опште механике људског говора. Истраживачи и инжењери морали су да идентификују појединачну фонетику, да их сложе у веће алгоритме за генерисање фраза и реченица, а затим покушају да управљају свим оним на мета-нивоу да би генерисали нешто што звучи стварно. Временом, челници НЛП-а савладали су то и започели с израдом напредних алгоритама да би разумели шта људи говоре. Спајајући ово двоје, компаније су пронашле покретаче за данашње виртуелне помоћнике и потпуно дигиталне службенике који плаћају рачуне, чији су манири - иако досадни - и даље невероватни када престанете да размишљате о раду који је у њих упао.

Сада неке компаније превазилазе генерички виртуелни глас како би саставили специфичнији персонализовани резултат. Ово захтева пролазак кроз лексикон одређеног човека и прикупљање великих количина јединственог гласовног видеа, затим примену ове архиве на сложене ритмове за фонетику, наглашавање, каденце и све остале ситне знакове које лингвисти често групису под широким транспарентом "просодије".

Оно што излази је глас који слушаоци мисле као „власништво“ одређене особе - било неко кога познају и са ким су разговарали, или неко чији глас препознају као резултат славе те особе.

Од Елвиса до Мартина Лутхера Кинга, нечији глас сада може бити клониран на овај начин - под условом да постоји значајан унапред забележен њихов говор. Примјењујући још детаљнију анализу и манипулацију на појединачне мале звукове, компаније су у стању да направе виртуелну копију нечијег гласа која звучи пуно као права ствар.

Узбудљиве креације „Текст на глас“ на ВивоТект-у

На пример, ВивоТект је једна компанија која ради на револуционарном коришћењу вештачких људских гласова за све врсте кампања, од аудио књига до интерактивног гласовног одговора (ИВР). На ВивоТект-у, истраживачки и продукцијски тимови раде на процесима који би, теоретски, могли конкретно да реплицирају гласове преминулих славних, попут самог Ол 'Блуе Еиес-а.

"Да клонирамо глас Франка Синатре, заправо бисмо прошли његову забележену заоставштину, " каже извршни директор ВивоТект-а Герсхон Силберт, говорећи о томе како ова врста технологије може да функционише.

Тренутно ВивоТект ради на архивирању гласова оних који су још увек с нама, попут дописника НПР-а Неал Цонан, који се пријавио као модел за ову врсту ИТ пионирског пројекта. Промотивни видео приказује раднике ВивоТект-а који мукотрпно стварају фонетске модуле модула помоћу обезбеђеног гласовног уноса од Цонана. Затим стварају моделе алата за текст у говор (ТТС) који евоцирају драматично људски и персонификовани резултат.

Према Бен Феиблеману, потпредседнику за стратегију и развој пословања ВивоТект-а, рачунар ради на нивоу фонеме (користећи најмање јединствене делове говора) како би се прилагодио прозодијском моделу за појединачни људски глас.

„Зна се како глас говори“, каже Феиблеман, додајући да коришћењем „избора јединице“ рачунар одабире низ делова како би саставио једну кратку реч, на пример, где реч „петак“ даје пет компоненти које помажу у развоју посебан нагласак и тонски резултат.

Умјетни глас у маркетингу

Па, како то функционира у маркетингу? ВивоТект производи могу бити изузетно корисни у стварању производа, попут аудио књига, који би могли досегнути циљну публику. На пример, колико би ефикаснији био Елвисов глас у поређењу с данашњим генеричким, мртвим, аутоматизованим гласовима ако би се користио за продају производа везаних за забаву?

Или, шта кажете на политику? Феиблеман ради на разним идејама за коришћење пројеката попут ових како би унапредио маркетинг за компаније или друге стране којима је потребно ефикасније слање порука.

"Ако знате било кога политичара који се кандидује за председника, ово би могло имати 10 милиона бирача државе који се љуљају да добију лични позив кандидата, захваљујући им на подршци, говорећи им где требају да гласају, време и све ситнице ноћ пре избора ", рекао је Феиблеман.

Ваш глас живи даље

Постоји још једна очигледна примена за сву ову технологију. Компаније са природним језиком попут ВивоТект-а могле би да створе личну услугу која би отпремила све гласовне податке корисника у производ који би тој особи омогућио да "говори заувек".

Практична примена вероватно би поставила бројна питања о томе како чујемо и интернализујемо изговорене гласове. На пример, шта је потребно да звучни ток звучи тачно као неко? Колико добро морамо знати особу да препозна одређени глас? И, што је занимљиво, шта се дешава ако услуга природног језика створи грубу карикатуру, а не нужну мимикрију?

Процена резултата, каже Феиблеман, често зависи од разматрања контекста. На пример, каже да деца обично не постављају питања ко говори када слуша причу. Они само желе још. Такође, многи одрасли можда неће размишљати о томе с ким разговарају, с обзиром на одређени сценарио, попут пасивне емисије или телефонске поруке. Такође, лакше се преварити са рачунаром преко телефона, јер пригушени звук може маскирати пропусте или друге разлике између рачунарских резултата и људског гласа.

"Не пада вам на памет да оспорите аутентичност гласа", каже Феиблеман.

2525

Како компаније напредују у развоју производа и услуга и одговарању на ова питања, „живи говор“ технологија могао би нас одвести ка конвергенцији технологије и људског ума, која се класично назива умјетном интелигенцијом (АИ).

Ако рачунари могу говорити попут нас, можда ће моћи преварити друге кориснике да мисле као они ми, улазећи у већи принцип сингуларности, као што је то у наш лексикон увео Јохн вон Неуманн, пионир техничких пионира из 1950-их, који су евангелизирали писци и мислилаца попут Раиа Курзвеила. Курзвеилова књига из 2005. године, „Сингуларност је близу“, узбуђује неке, а друге плаши. Курзвеил је предвидио да ће до 2045. „интелигенција“ као феномен постати увелико уклоњена из људског мозга и прећи у технологију, замагливши линије између машина и њихових људских господара.

Бесмртна у стиховима Загер & Еванс "У години 2525" (нико не ради језиве научно-фантастичне баладе попут ових момака) …

Године 4545

Неће ти требати зуби, не треба ти

твоје очи

Нећете наћи нешто за жвакање

Нико те неће гледати

Године 5555

Руке вам висе на боковима

Ноге ти немају шта радити

Нека машина то ради за вас

Да ли су рачунарски гласови корак у том правцу? Као нови начин да се извршавају неке функције људског тела (или чешће, да се симулирају), ова врста технолошког напретка један је од највећих - и вероватно недовољно пријављених - напретка на хоризонту док гледамо у јединствену будућност . (о "сингуларности" у Да ли ће рачунари моћи да имитирају људски ум?)