Geresnė, tikslesnė vaizdų paieška

Kalifornijos universiteto San Diege (UCSD) mokslininkai sukūrė naują vaizdų paieškos metodą, kuris, jų teigimu, gerokai lenkia esamus metodus tikslumo ir efektyvumo atžvilgiu. Tyrėjų požiūris pakeičia tipinį mašininio mokymosi metodą, naudojamą mokant kompiuterius atpažinti vaizdus, ​​sako Nuno Vasconcelos, UCSD elektros ir kompiuterių inžinerijos profesorius. Rezultatas yra paieškos sistema, kuri automatiškai pažymi paveikslėlius su jame esančių objektų pavadinimais, pvz., ridikėliais, skėčiais ar plaukikai. Ir kadangi šis metodas naudoja žodžius paveikslėlių dalims žymėti ir klasifikuoti, jis puikiai tinka tipiškoms raktinių žodžių paieškoms, kurias žmonės atlieka internete, sako Vasconcelosas.





Nuotraukų paieška : Naujas UCSD sukurtas algoritmas, kuris prie vaizdų prideda žodžių žymas, gali padidinti vaizdų paieškos tikslumą ir efektyvumą. Aukščiau pateiktoms nuotraukos ypatybėms priskiriama tikimybė, kad jos priklauso tam tikroms kategorijoms, pvz., vandeniui ar asmeniui.

Šiuo metu vaizdų paieška internete naudojant raktinius žodžius gali būti netikėta. Taip yra todėl, kad daugeliui vaizdais pagrįstų paieškų naudojami metaduomenys – tekstas, pvz., failo pavadinimas, data ar kita pagrindinė informacija, susijusi su nuotrauka, kuri gali būti neišsami, nenaudinga ieškant pagal raktinius žodžius arba visai nebūti. Kompiuterių mokslininkai jau daugiau nei dešimtmetį ieško geresnių būdų, kaip atpažinti nuotraukas ir padaryti jų paieškas, tačiau priversti mašinas peržengti metaduomenis ir nustatyti, kokie objektai yra paveikslėlyje, yra sudėtinga išspręsti problema, o dauguma iki šiol pastangų buvo vidutiniškai sėkmingas.



Nors UCSD tyrimas nevisiškai išsprendžia problemos, jis pagerina tam tikro požiūrio našumą ir efektyvumą, sako Vasconcelos, ir nustato tam tikrus apribojimus, kaip žmonės sprendžia problemą.



Metodas, kurį tyrinėjo tyrėjai, vadinamas turiniu ir apima objektų apibūdinimą paveikslėlyje, analizuojant tokias savybes kaip spalva, tekstūra ir linijos. Šiuos objektus galima pavaizduoti funkcijų rinkiniais ir tada palyginti su rinkiniais, išskirtais iš kitų paveikslėlių. Funkcijų rinkiniai aprašomi pagal jų statistiką, o kompiuteris ieško statistiškai tikėtinų atitikčių.

Multimedija

  • Vaizdų paieška

Naujasis tyrimas yra pagrįstas šiuo požiūriu, tačiau jis prideda tarpinį žingsnį, sako Pedro Moreno, Google tyrimų inžinierius, dirbęs su projektu. Moreno paaiškina, kad šis naujas žingsnis suteikia semantinę etiketę arba žodžio žymą, apibūdinančią objektus paveikslėliuose, o ne pasikliaujant vien skaičių rinkiniais.

Pavyzdžiui, apsvarstykite galimybę pateikti šuns atvaizdą ant pievelės. Nuotraukose esantys objektai analizuojami ir lyginami su žinomų objektų kategorijų, pvz., šunų, kačių ar žuvų, rezultatais. Tada kompiuteris pateikia statistinę analizę, kuri suteikia tikimybę, kad paveikslėlis atitinka šias kategorijas. Sistema gali įvertinti nuotrauką su 60 procentų tikimybe, kad pagrindinis objektas yra šuo, ir su 20 procentų tikimybe, kad tai yra katė arba žuvis. Taigi, kompiuteris mano, kad greičiausiai paveikslėlyje yra šuns atvaizdas. Pagrindinė idėja yra vaizduoti vaizdus šioje semantinėje erdvėje, sako Moreno. Atrodo, kad tai žymiai pagerina našumą.



Tyrėjų sistema įgijo savo patirties, nes buvo eksponuojama tūkstančiai nuotraukų, kuriose buvo tokie objektai kaip kalnai, gėlės, žmonės, vanduo ir tigrai, taip pat objektus atitinkančios semantinės žymos. Tada mokslininkai išbandė, kaip gerai veikia sistema, pateikdami jai naujas nuotraukas, kuriose buvo objektai, kurie dar nebuvo pažymėti. Lyginant su žmogaus aprašytu scenos aprašymu, sistema veikė gerai: tigro nuotrauka aukštoje žolėje paskatino sistemą rasti katę, tigrą, augalus, lapus ir žolę. Žmogaus sukurtame antraštėje buvo katė, tigras, miškas ir žolė. Ir kai tyrėjai palygino savo sistemos žymas su tipiškesniais turiniu pagrįstais metodais, jie nustatė, kad tai buvo maždaug 40 proc. Kitaip tariant, jis sukūrė mažiau žodžių, kurie nebuvo taikomi vaizdui.

Larry Zitnickas, „Microsoft“ vaizdų paieškos tyrėjas, teigia, kad tyrimai plečia turiniu pagrįstos paieškos ribas, kad pamatytų, kaip gerai ji gali veikti. Tai, ką jie daro, yra analizuoti, kiek toli galime nueiti, remdamiesi [ieškodami objektų vaizdo], ir tai tikrai gerai, jei reikia stumti voką. Jis taip pat įtaria, kad šis metodas galėtų gerai pasiteisinti dideliems vaizdų rinkiniams, pavyzdžiui, esantiems internete.

Zitnickas priduria, kad UCSD rezultatai gali būti puikūs tam tikro tipo paprastoms objektų paieškoms nuotraukose. Tačiau jis netiks kitoms paieškoms, pavyzdžiui, norint atskirti JAV sostinės pastatą nuo valstijos sostinės pastato Linkolne, NE. Vizualinės problemos yra labai sunkios, ir nemanau, kad bet koks sprendimas viską išspręs, sako Zitnickas.



Tačiau mokslininkų požiūris gali būti naudingas, jei jis būtų įtrauktas į esamą paieškos programinę įrangą, sako Chuckas Rosenbergas, „Google“ programinės įrangos inžinierius, dirbantis su vaizdų paieška. Jei šis metodas būtų įtrauktas į darbalaukio paiešką, jis galėtų leisti žmonėms ieškoti vaizdų pagal išvaizdos panašumą. Tačiau tai nebūtinai padėtų žmonėms rasti nuotraukas, pagrįstas neaiškesnėmis sąvokomis, tokiomis kaip laimė. Pavyzdžiui, Rosenbergas sako: „Galiu norėti laimingos šeimos paveikslo vakare pasivaikščioti ir užsidėti ant savo kuriamos atvirutės. Tam, kad kompiuteris tikrai rastų tą paveikslėlį pagal vien vaizdo turinį... yra už dabartinių technologijų ribų.

Vasconcelosas iš UCSD įtaria, kad praeis daugiau nei penkeri metai, kol kompiuteriai galės nuotraukose atpažinti sudėtingesnes sąvokas, tokias kaip laimė. Tačiau tai nereiškia, kad dabartiniai tyrimai nebus naudingi anksčiau, sako jis. Turi būti tikimasi, kad [technologija] bus labiau kaip pagalba, o ne kaip atsakymas.

paslėpti