211service.com
„Facebook“ AI sistema gali kalbėti Billo Gateso balsu
Jack Taylor / Stringer / Getty
Mašininė kalba yra kažkoks nusivylimas. Net geriausios teksto į kalbą sistemos pasižymi mechanine kokybe ir neturi pagrindinių intonacijos pokyčių, kuriuos naudoja žmonės. Stepheno Hawkingo daug nukopijuota kalbos sistema yra pavyzdys.
Tai stebina, atsižvelgiant į didžiulę mašininio mokymosi pažangą pastaraisiais metais. Žinoma, technikos, kurios puikiai pasiteisino atpažįstant veidus ir objektus ir sukuriant tikroviškus jų vaizdus, turėtų vienodai gerai veikti ir su garsu. Ne visai.
Bent jau ne iki šiandien. Į „Facebook AI Research“ įeina Seanas Vasquezas ir Mike'as Lewisas, kurie rado būdą, kaip įveikti teksto į kalbą sistemų apribojimus ir sukurti nepaprastai tikroviškus garso klipus, sukurtus vien mašina. Jų aparatas, vadinamas MelNet, ne tik atkuria žmogaus intonaciją, bet gali tai daryti tokiu pačiu balsu, kaip ir tikri žmonės. Taigi komanda išmokė jį kalbėti kaip Billas Gatesas, be kita ko. Kūrinys atveria tikroviškesnės sąveikos tarp žmonių ir kompiuterių galimybę, tačiau taip pat iškelia naujos netikro garso turinio eros šmėklą.
Pirmiausia šiek tiek fono. Lėtą tikroviškų teksto į kalbą sistemų pažangą lemia ne bandymas. Daugybė komandų bandė išmokyti gilaus mokymosi algoritmus, kad atkurtų tikrus kalbos modelius, naudodamos dideles garso duomenų bazes.
Pasak Vasquezo ir Lewiso, šio metodo problema yra duomenų tipas. Iki šiol dauguma darbų buvo skirti garso bangos formos įrašams. Jie parodo, kaip laikui bėgant keičiasi garso amplitudė, kiekviena įrašyto garso sekundė susideda iš dešimčių tūkstančių laiko žingsnių.
Šios bangos formos rodo specifinius modelius įvairiomis skalėmis. Pavyzdžiui, per kelias kalbos sekundes bangos forma atspindi būdingus modelius, susijusius su žodžių sekomis. Tačiau mikrosekundžių skalėje bangos forma rodo charakteristikas, susijusias su balso aukščiu ir tembru. O kitais masteliais bangos forma atspindi kalbėtojo intonaciją, fonemos struktūrą ir pan.
Kitas būdas galvoti apie šiuos modelius yra koreliacijos tarp bangos formos vienu metu ir kitame laiko žingsnyje. Taigi tam tikroje laiko skalėje žodžio pradžioje esantis garsas yra koreliuojamas su po to sekančiais garsais.
Giluminio mokymosi sistemos turėtų gerai išmokti tokio tipo koreliacijas ir jas atkurti. Problema ta, kad koreliacijos veikia per daug skirtingų laiko skalių, o giluminio mokymosi sistemos gali tirti koreliacijas tik per ribotą laiko skalę. Taip yra dėl jų naudojamo mokymosi proceso tipo, vadinamo atgaliniu propagavimu, kuris pakartotinai perjungia tinklą, kad pagerintų jo našumą, remiantis matomais pavyzdžiais.
Pasikartojimo dažnis riboja laiko skalę, per kurią galima išmokti koreliacijų. Taigi giluminio mokymosi tinklas gali išmokti garso bangų formų koreliacijas per ilgą arba trumpą laiką, bet ne abu. Štai kodėl jie taip prastai atkuria kalbą.
Vasquezas ir Lewisas turi skirtingą požiūrį. Vietoj garso bangų formų jie naudoja spektrogramas, kad mokytų savo gilaus mokymosi tinklą. Spektrogramos įrašo visą garso dažnių spektrą ir kaip jie keičiasi laikui bėgant. Taigi, nors bangos formos fiksuoja vieno parametro, amplitudės, pokytį laikui bėgant, spektrogramos fiksuoja pokyčius dideliame skirtingų dažnių diapazone.
Tai reiškia, kad garso informacija yra tankiau supakuota į tokio tipo duomenų atvaizdavimą. Spektrogramos laiko ašis yra dydžiais kompaktiškesnė nei bangos formos, o tai reiškia, kad priklausomybės, apimančios dešimtis tūkstančių bangos formų laiko žingsnių, spektrogramose apima tik šimtus laiko žingsnių, sako Vasquezas ir Lewisas.
Dėl to koreliacijos yra labiau prieinamos gilaus mokymosi sistemai. Tai leidžia mūsų spektrogramų modeliams generuoti besąlyginius kalbos ir muzikos pavyzdžius, nuosekliai per kelias sekundes, sako jie.
O rezultatai įspūdingi. Išmokęs sistemą naudodamas įprastą kalbą iš TED pokalbių, MelNet gali per kelias sekundes atkurti TED kalbėtojo balsą, sakydamas daugiau ar mažiau bet ką. „Facebook“ tyrėjai demonstruoja savo lankstumą naudodamiesi Billo Gateso TED pokalbiu, kad apmokytų „MelNet“, o tada jo balsu pasakytų daugybę atsitiktinių frazių.
Tai sistema, kuri sako, kad mes susiraukiame, kai įvykiai pasisuka bloga linkme, o portveinas yra stiprus dūmo skonio vynas. Kiti pavyzdžiai yra čia.
Susiraukiame, kai įvykiai pasisuka bloga linkme
portveinas – stiprus dūmo skonio vynas
Žinoma, yra tam tikrų apribojimų. Įprastoje kalboje yra koreliacijų dar ilgesniais laikotarpiais. Pavyzdžiui, žmonės naudoja intonacijos pokyčius, kad parodytų temos ar nuotaikos pokyčius, kai istorijos vystosi per dešimtis sekundžių ar minučių. Atrodo, kad „Facebook“ mašina to dar nepajėgi.
Taigi, nors MelNet gali sukurti nepaprastai tikroviškas frazes, komanda dar nepatobulino ilgesnių sakinių, pastraipų ar ištisų istorijų. Tai neatrodo kaip tikslas, kuris greičiausiai bus pasiektas greitai.
Nepaisant to, darbas gali turėti didelės įtakos žmogaus ir kompiuterio sąveikai. Daugelis pokalbių apima tik trumpas frazes. Telefono operatoriai ir ypač pagalbos tarnybos gali išsiversti su gana trumpomis frazėmis. Taigi ši technologija galėtų automatizuoti šias sąveikas tokiu būdu, kuris yra daug panašesnis į žmogų nei dabartinės sistemos.
Tačiau šiuo metu Vasquezas ir Lewisas mažai kalba apie galimus pritaikymus.
Ir kaip visada, gali kilti problemų dėl natūraliai skambančių mašinų, ypač tų, kurios gali patikimai imituoti žmones. Nereikia daug fantazijos, kad būtų galima susapnuoti scenarijus, kuriuose ši technologija galėtų būti panaudota išdykimui. Dėl šios priežasties tai dar vienas su dirbtiniu intelektu susijęs pažanga, kelianti daugiau etinių klausimų nei atsakymų.
Nuoroda: arxiv.org/abs/1906.01083 : MelNet: generatyvus garso modelis dažnio srityje