Revoliucinė technika, kuri tyliai amžiams pakeitė mašinos viziją

Kosmoso tyrinėjimams skirtas „Google Lunar X Prize“ apdovanojimas už marsaeigio pastatymą ant Mėnulio paviršiaus. Medicinoje yra Qualcomm Tricorder X prizas, skirtas sukurti į Star Trek panašų prietaisą ligai diagnozuoti. Yra net pradedamas dirbtinio intelekto X prizas už AI sistemos, galinčios perduoti žavingą TED pokalbį, sukūrimą.





Mašininio matymo pasaulyje lygiavertis tikslas yra laimėti „ImageNet Large-Scale Visual Recognition Challenge“ iššūkį. Tai nuo 2010 m. kasmet vykstantis konkursas, skirtas vaizdų atpažinimo algoritmams įvertinti. (Jis sukurtas kaip panašaus projekto PASCAL VOC, kuris vyko nuo 2005 iki 2012 m., tęsinys).

Šio konkurso dalyviai turi dvi paprastas užduotis. Pateikiant tam tikrą vaizdą, pirmoji užduotis yra nuspręsti, ar jame yra tam tikro tipo objektas, ar ne. Pavyzdžiui, dalyvis gali nuspręsti, kad šiame paveikslėlyje yra automobilių, bet nėra tigrų. Antroji užduotis – surasti tam tikrą objektą ir aplink jį nupiešti langelį. Pavyzdžiui, dalyvis gali nuspręsti, kad tam tikroje padėtyje yra atsuktuvas, kurio plotis 50 pikselių ir 30 pikselių aukštis.

O ir dar vienas dalykas: yra 1000 skirtingų objektų kategorijų – nuo ​​abakų iki cukinijų, o konkurso dalyviai turi ištirti daugiau nei 1 milijono vaizdų duomenų bazę, kad surastų kiekvieną kiekvieno objekto atvejį. Sudėtinga!



Kompiuteriai visada turėjo problemų atpažindami objektus tikruose vaizduose, todėl nesunku patikėti, kad šių konkursų nugalėtojai visada pasirodė prastai, palyginti su žmonėmis.

Tačiau viskas pasikeitė 2012 m., kai komanda iš Toronto universiteto Kanadoje įvedė algoritmą, pavadintą SuperVision, kuris nušlavė grindis su opozicija.

Šiandien Olga Russakovsky iš Stanfordo universiteto Kalifornijoje ir keli draugai apžvelgia šio konkurso istoriją ir sako, kad retrospektyviai žiūrint, visapusiška SuperVision pergalė buvo lūžis mašininio matymo srityje. Pasak jų, nuo tada mašininis regėjimas tobulėjo taip sparčiai, kad šiandien pirmą kartą konkuruoja su žmogaus tikslumu.



Taigi, kas nutiko 2012 m., kas pakeitė mašininio matymo pasaulį? Atsakymas yra metodas, vadinamas giliaisiais konvoliuciniais neuroniniais tinklais, kuriuos Super Visison algoritmas naudojo 1,2 milijono didelės raiškos vaizdų duomenų rinkinyje suskirstyti į 1000 skirtingų klasių.

Tai buvo pirmas kartas, kai konkursą laimėjo gilus konvoliucinis neuroninis tinklas, ir tai buvo aiški pergalė. 2010 m. laimėjusio darbo klaidų lygis siekė 28,2 proc., 2011 m. klaidų lygis sumažėjo iki 25,8 proc. Tačiau 2012 m. „SuperVision“ laimėjo su tik 16,4 procento klaidų lygiu (antrojo geriausio įrašo klaidų lygis buvo 26,2 procento). Ši aiški pergalė užtikrino, kad nuo tada šis požiūris buvo plačiai kopijuojamas.

Konvoliuciniai neuroniniai tinklai susideda iš kelių mažų neuronų rinkinių sluoksnių, kurių kiekvienas žiūri į mažas vaizdo dalis. Visų sluoksnio kolekcijų rezultatai sutampa, kad būtų sukurtas viso vaizdo vaizdas. Tada žemiau esantis sluoksnis pakartoja šį procesą naujame vaizdo vaizde, todėl sistema gali sužinoti apie vaizdo sudėtį.



Devintojo dešimtmečio pradžioje buvo išrasti gilieji konvoliuciniai neuroniniai tinklai. Tačiau tik per pastaruosius porą metų kompiuteriai pradėjo turėti arklio galių, reikalingų aukštos kokybės vaizdo atpažinimui.

Pavyzdžiui, „SuperVision“ susideda iš maždaug 650 000 neuronų, išdėstytų penkiais konvoliuciniais sluoksniais. Jame yra apie 60 milijonų parametrų, kuriuos reikia tiksliai sureguliuoti mokymosi proceso metu, kad būtų galima atpažinti tam tikrų kategorijų objektus. Būtent ši didžiulė parametrų erdvė leidžia atpažinti tiek daug skirtingų objektų tipų.

Nuo 2012 m. kelios grupės gerokai pagerino SuperVision rezultatą. Šiais metais „Google“ inžinierių komandos sukurtas algoritmas, vadinamas GoogLeNet, pasiekė tik 6,7 procento klaidų lygį.



Vienas iš didžiausių iššūkių organizuojant tokio pobūdžio varžybas visų pirma yra sukurti aukštos kokybės duomenų rinkinį, sako Russakovsky ir kt. Kiekvienas duomenų bazės vaizdas turi būti pažymėtas aukso standartu, kurį turi atitikti algoritmai. Taip pat yra mokymo duomenų bazė, kurioje yra apie 150 000 vaizdų, kurie taip pat turi būti anotuoti.

Tai nėra lengva užduotis, kai yra tiek daug vaizdų. Russakovsky ir bendradarbiai tai padarė naudodamiesi minios tiekimo paslaugomis tokiose patalpose kaip „Amazon's Mechanical Turk“, kur jie prašo žmonių suskirstyti vaizdus į kategorijas. Tam reikia daug planuoti, patikrinti ir pakartoti, kai tai neveikia. Tačiau rezultatas yra aukštos kokybės vaizdų duomenų bazė, anotuota dideliu tikslumu, sako jie.

Įdomus klausimas yra tai, kaip geriausi algoritmai lyginami su žmonėmis, kai kalbama apie objektų atpažinimą. Russakovskis ir bendražygiai palygino žmones su mašinomis ir jų išvada atrodo neišvengiama. Mūsų rezultatai rodo, kad apmokytas žmogaus anotatorius gali apytiksliai 1,7% viršyti geriausio modelio („GoogLeNet“) rezultatus.

Kitaip tariant, neilgai trukus mašinos žymiai pralenks žmones atliekant vaizdo atpažinimo užduotis.

Geriausi mašininio matymo algoritmai vis dar kovoja su mažais ar plonais objektais, pvz., maža skruzdėle ant gėlės stiebo arba žmogumi, laikančiu plunksną rankoje. Jie taip pat turi problemų su vaizdais, kurie buvo iškraipyti naudojant filtrus, o tai vis dažnesnis reiškinys šiuolaikiniuose skaitmeniniuose fotoaparatuose.

Priešingai, tokie vaizdai retai vargina žmones, kurie linkę turėti problemų dėl kitų problemų. Pavyzdžiui, jie nesugeba klasifikuoti objektų į smulkias kategorijas, pvz., tam tikras šunų ar paukščių rūšis, o mašininio matymo algoritmai su tuo susidoroja lengvai.

Tačiau tendencija aiški. Akivaizdu, kad žmonės greitai pralenks naujausius vaizdų klasifikavimo modelius tik dėdami daug pastangų, patirties ir laiko, sako Russakovskis ir kt.

Arba kitaip, tik laiko klausimas, kada jūsų išmanusis telefonas geriau atpažins jūsų nuotraukų turinį nei jūs.

Nuoroda: http://arxiv.org/abs/1409.0575 : „ImageNet“ didelio masto vizualinio atpažinimo iššūkis

paslėpti