Põhiline Uuenda Google'i uus tekst-kõneks tehisintellekt on nii hea, et panustame, et seda ei saa tõeliselt inimeselt öelda

Google'i uus tekst-kõneks tehisintellekt on nii hea, et panustame, et seda ei saa tõeliselt inimeselt öelda

Teie Homseks Horoskoop

Kas oskate eristada tehisintellekti abil loodud arvutikõnet reaalsest elusast inimesest? Võib-olla olete alati mõelnud, et võiksite. Võib-olla armastate Alexat ja Sirit, kuid usute, et te ei aja neid kumbagi tegeliku naisega segi.

Asjad hakkavad palju huvitavamaks muutuma. Google'i insenerid on kõvasti tööd teinud kõnesünteesi süsteemi loomiseks Takotron 2 . Vastavalt a paber nad avaldasid sel kuul, loob süsteem kõigepealt teksti spektrogrammi, visuaalse kujutise sellest, kuidas kõne peaks kõlama. See pilt pannakse Google'i olemasoleva WaveNeti algoritmi kaudu, mis kasutab pilti äärmiselt looduslikult kõlava inimkõne tekitamiseks.

lindsay wagneri netoväärtus 2016

Seda meetodit kasutades teatavad teadlased: 'Meie mudel saavutab keskmise arvamusskoori (MOS) 4,53, mis on võrreldav professionaalselt salvestatud kõne 4,58 MOS-ga.' (Keskmine arvamusskoor on telekommunikatsiooni mõiste, mis mõõdab, kui midagi tõetruult kõlab.)

Nagu Google'i helinäidised näitavad, suudab Tacotron 2 kontekstist tuvastada erinevuse nimisõna „kõrb“ ja verbi „kõrb“, samuti nimisõna „olevik“ ja verbi „kohal“ vahel ning vastavalt muuta ka selle hääldust. See võib rõhku panna suurtähtedega sõnadele ja avalduse esitamise asemel küsimuse esitamisel rakendada õiget käänet.

Ja see võib genereerida teksti, mis kõlab inimkõnega nii sarnaselt, et selle erinevuse tundmine on keeruline või võimatu. Kui soovite näha, kui raske see on, minge Google'i lehele helinäidiste leht ja kerige alla viimase proovikomplektini pealkirjaga 'Tacotron 2 või inimene?' Sealt leiate Tacotron 2 ja reaalse inimese, kes ütlevad igaüks lauseid, näiteks: 'See tüdruk tegi video Tähesõdade huulepulga kohta.'

SPOILERI HOIATUS: Enda testimiseks kuulake enne selle veeru ülejäänud osa lugemist proove ja mõelge kumb on.

Niisiis, millised proovid on tekst kõneks ja millised on tõeline inimese hääl? Google'i insenerid ei ütle, kuid nad on jätnud väga suure vihje. Igal failil .wav on failinimi, mis sisaldab kas mõistet „gen” või „gt”. Paberi põhjal on väga tõenäoline, et 'gen' tähistab Tacotron 2 loodud kõnet ja 'gt' on inimese tõeline kõne. ('GT' tähistab tõenäoliselt 'põhitõde', masinõppe terminit, mis põhimõtteliselt tähendab 'reaalset tehingut'.)

Eeldades, et see on õige, on siin vastused testile:

mishael morgan abikaasa navid ali

'See tüdruk tegi video Tähesõdade huulepulgast.'

Näide 1: päris inimene

Proov 2: takotroon 2

'Ta omandas sotsioloogia doktorikraadi Columbia ülikoolis.'

Näide 1: takotroon 2

2. proov: päris inimene

'George Washington oli esimene USA president.'

Näide 1: takotroon 2

2. proov: päris inimene

ace frehley netoväärtus 2016

'Ma olen romantika jaoks liiga hõivatud.'

Näide 1: päris inimene

Proov 2: takotroon 2

Kui palju saite õigeks? Ja kas saaksite tõesti vahet teha või pidite lihtsalt ära arvama?