211service.com
DI vis dar neturi sveiko proto suprasti žmonių kalbą

Neryškus raštas ant sienos Pexelsas / Jimmy Chanas
Dar visai neseniai kompiuteriai buvo beviltiški kurti sakinius, kurie iš tikrųjų turėjo prasmę. Tačiau natūralios kalbos apdorojimo (NLP) srityje padaryta didžiulė pažanga, o mašinos dabar gali sukurti įtikinamus fragmentus vienu mygtuko paspaudimu.
Šią pažangą lėmė giluminio mokymosi metodai, kurie atrenka statistinius žodžių vartojimo modelius ir argumentų struktūrą iš daugybės teksto. Bet a naujas popierius iš Alleno dirbtinio intelekto instituto atkreipia dėmesį į tai, ko vis dar trūksta: mašinos nelabai supranta, ką rašo (ar skaito).
Tai esminis iššūkis siekiant apibendrinti AI, bet ne tik akademinėje bendruomenėje, bet ir vartotojams. Pavyzdžiui, pokalbių robotai ir balso asistentai, sukurti remiantis naujausiais natūralios kalbos modeliais, daugeliui tapo sąsaja. finansinės institucijos , sveikatos priežiūros paslaugų teikėjai , ir vyriausybines agentūras . Be tikro kalbos supratimo šios sistemos labiau linkusios žlugti, todėl sulėtėja prieiga prie svarbių paslaugų.
Tyrėjai rėmėsi savo darbu Vinogrado schemos iššūkis 2011 m. sukurtas testas, skirtas įvertinti sveiko proto NLP sistemų samprotavimus. Iššūkyje naudojamas 273 klausimų rinkinys, apimantis sakinių poras, kurios yra identiškos, išskyrus vieną žodį. Šis žodis, žinomas kaip trigeris, pakeičia kiekvieno sakinio įvardžio reikšmę, kaip matyti toliau pateiktame pavyzdyje:
- Trofėjus netelpa į rudą lagaminą, nes tai taip pat didelis .
- Trofėjus netelpa į rudą lagaminą, nes tai taip pat mažas .
Kad pavyktų, NLP sistema turi išsiaiškinti, kurią iš dviejų variantų įvardis nurodo. Tokiu atveju, norint teisingai išspręsti problemą, pirmajam reikėtų pasirinkti trofėjų, o antrajam – lagaminą.
Iš pradžių testas buvo sukurtas su mintimi, kad į tokias problemas nebūtų galima atsakyti be gilesnio semantikos suvokimo. Šiuolaikiniai gilaus mokymosi modeliai dabar gali pasiekti maždaug 90 % tikslumą, todėl atrodo, kad NLP priartėjo prie savo tikslo. Tačiau savo darbe, kuris kitą mėnesį vyksiančioje AAAI konferencijoje gaus išskirtinį apdovanojimą, mokslininkai meta iššūkį etalono veiksmingumui, taigi ir pažangos lygiui, kurį ši sritis iš tikrųjų padarė.
Jie sukūrė žymiai didesnį duomenų rinkinį, pavadintą „WinoGrande“, su 44 000 tokių pačių problemų. Norėdami tai padaryti, jie sukūrė sutelktinio šaltinio schemą, kad greitai sukurtų ir patvirtintų naujas sakinių poras. (Iš dalies priežasčių, kodėl Winograd duomenų rinkinys yra toks mažas, yra tai, kad jį rankomis sukūrė ekspertai.) Amazon Mechanical Turk darbuotojai sukūrė naujus sakinius su reikalingais žodžiais, atrinktais taikant atsitiktinės atrankos procedūrą. Tada kiekviena sakinių pora buvo skirta trims papildomiems darbuotojams ir palikta tik tuo atveju, jei atitiko tris kriterijus: bent du darbuotojai pasirinko teisingus atsakymus, visi trys variantus laikė vienareikšmiškais, o įvardžio nuorodų nebuvo galima išvesti naudojant paprastas žodžių asociacijas.
Paskutiniame etape mokslininkai taip pat paleido duomenų rinkinį naudodami algoritmą, kad pašalintų kuo daugiau artefaktų – netyčinių duomenų šablonų ar koreliacijų, kurios galėtų padėti kalbos modeliui gauti tinkamus atsakymus dėl netinkamų priežasčių. Tai sumažino galimybę, kad modelis išmoks žaisti su duomenų rinkiniu.
Kai jie išbandė naujausius modelius dėl šių naujų problemų, našumas sumažėjo iki 59,4–79,1%. Priešingai, žmonės vis tiek pasiekė 94% tikslumą. Tai reiškia, kad aukštas pirminio Winograd testo rezultatas greičiausiai yra išpūstas. Tai tik konkretus duomenų rinkinio pasiekimas, o ne bendros užduoties pasiekimas, sako Yejin Choi, Vašingtono universiteto docentas ir AI2 vyresnysis tyrimų vadovas, vadovavęs tyrimui.
Choi tikisi, kad duomenų rinkinys bus naujas etalonas. Tačiau ji taip pat tikisi, kad tai įkvėps daugiau tyrėjų pažvelgti ne tik į gilų mokymąsi. Rezultatai jai pabrėžė, kad tikros sveiko proto NLP sistemos turi apimti kitus metodus, pavyzdžiui, struktūrizuotus žinių modelius. Ji Ankstesnis darbas parodė didelį pažadą šia kryptimi. Mums kažkaip reikia rasti kitokį žaidimo planą, sako ji.
Laikraštis sulaukė tam tikros kritikos. Ernestas Davisas, vienas iš tyrėjų, dirbusių su originaliu Winograd iššūkiu, sako, kad daugelis straipsnyje pateiktų sakinių porų yra rimtų trūkumų ir paini gramatika. Jie neatitinka to, kaip angliškai kalbantys žmonės iš tikrųjų vartoja įvardžius, rašė jis el.
Tačiau Choi pažymi, kad tikrai tvirtiems modeliams neturėtų prireikti tobulos gramatikos, kad suprastų sakinį. Žmonės, kurie kalba angliškai kaip antrąja kalba, kartais painioja savo gramatiką, bet vis tiek perteikia savo prasmę.
Žmonės gali lengvai suprasti mūsų klausimus ir pasirinkti teisingą atsakymą, sako ji, turėdama omenyje 94% našumo tikslumą. Jei žmonės turėtų tai padaryti, mano pozicija yra tokia, kad mašinos taip pat turėtų tai padaryti.
Jei norite, kad daugiau tokių istorijų būtų pristatyta tiesiai į jūsų pašto dėžutę, užsiprenumeruokite Webby nominuotą AI informacinį biuletenį The Algorithm . Tai nemokama.