Kaip mechaniniai turkeriai surinko didžiulę žodžių ir emocijų sąsajų leksiką

Viena iš populiarių frazių, susijusių su socialiniu tinklu, yra nuotaikų analizė. Tai galimybė nustatyti žmogaus nuomonę ar dvasios būseną analizuojant žodžius, kuriuos jis skelbia Twitter, Facebook ar kitoje laikmenoje.





Šiuo metodu buvo pažadėta daug – galimybė išmatuoti pasitenkinimą politikais, filmais ir produktais; gebėjimas geriau valdyti santykius su klientais; gebėjimas kurti dialogą emocijų suvokiantiems žaidimams; gebėjimas išmatuoti emocijų srautą romanuose; ir taip toliau.

Idėja yra visiškai automatizuoti šį procesą – išanalizuoti socialinių svetainių sukurtus žodžius naudojant pažangias duomenų gavybos technologijas, kad būtų galima įvertinti nuotaikas plačiu mastu.

Tačiau visa tai priklauso nuo to, kaip gerai suprantame emocijas ir poliškumą (neigiamą ar teigiamą), kuriuos žmonės sieja su kiekvienu žodžiu ar žodžių junginiais.



Šiandien Saifas Mohammadas ir Peteris Turney iš Kanados nacionalinės tyrimų tarybos Otavoje atskleidžia didžiulę žodžių ir su jais susijusių emocijų bei poliškumo duomenų bazę, kurią jie greitai ir nebrangiai surinko naudodami Amazon „Mechanical Turk“ svetainę. Jie sako, kad šis „crowdsourcing“ mechanizmas leidžia greitai ir lengvai padidinti duomenų bazės dydį ir kokybę.

Dauguma psichologų mano, kad iš esmės yra šešios pagrindinės emocijos – džiaugsmas, liūdesys, pyktis, baimė, pasibjaurėjimas ir nuostaba – arba daugiausia aštuonios, jei apima pasitikėjimą ir laukimą. Taigi bet kurios žodžių ir emocijų leksikos užduotis yra nustatyti, kaip stipriai žodis yra susijęs su kiekviena iš šių emocijų.

Vienas iš būdų tai padaryti – pasitelkti nedidelę ekspertų grupę emocijoms susieti su žodžių rinkiniu. Vienoje žinomiausių duomenų bazių, sukurtoje septintajame dešimtmetyje ir žinomoje kaip „General Inquirer“ duomenų bazė, yra daugiau nei 11 000 žodžių, pažymėtų 182 skirtingomis žymomis, įskaitant kai kurias emocijas, kurios, psichologų nuomone, dabar yra pačios elementariausios.



Modernesnė duomenų bazė yra WordNet Affect Lexicon, kurioje yra keli šimtai taip pažymėtų žodžių. Tai panaudojo nedidelę ekspertų grupę, kuri rankiniu būdu pažymėjo pradinių žodžių rinkinį su pagrindinėmis emocijomis. Tada šios duomenų bazės dydis buvo smarkiai padidintas automatiškai susiejant tas pačias emocijas su visais šių žodžių sinonimais.

Viena iš problemų, susijusių su šiais metodais, yra didžiulis laikas, kurio reikia norint sudaryti didelę duomenų bazę, todėl Mohammadas ir Turney bandė kitokį požiūrį.

Šie vaikinai atrinko apie 10 000 žodžių iš esamo tezauro ir aukščiau aprašytų žodynų, o tada sukūrė penkių klausimų rinkinį, kuriuos reikia užduoti apie kiekvieną žodį, kuris atskleistų su juo susijusias emocijas ir poliškumą. Tai iš viso daugiau nei 50 000 klausimų.



Tada jie uždavė šiuos klausimus daugiau nei 2000 žmonių, arba turkerių, „Amazon“ „Mechanical Turk“ svetainėje, sumokėdami 4 centus už kiekvieną tinkamai atsakytų klausimų rinkinį.

Rezultatas yra išsamus žodžių ir emocijų leksikas, kuriame yra daugiau nei 10 000 žodžių arba dviejų žodžių frazių, kurias jie vadina EmoLex.

Vienas svarbus veiksnys šiame tyrime yra atsakymų, kuriuos suteikia minios tiekimas, kokybė. Pavyzdžiui, kai kurie turkeriai gali atsakyti atsitiktinai arba net sąmoningai įvesti neteisingus atsakymus.



Mohammadas ir Turney tai išsprendė įterpdami testinius klausimus, pagal kuriuos jie įvertina, ar Turkeris gerai atsako, ar ne. Jei ne, visi to asmens duomenys yra ignoruojami.

Jie patikrino savo duomenų bazės kokybę, lygindami ją su ankstesnėmis ekspertų sukurtomis duomenų bazėmis ir teigia, kad ji gerai palyginama. Mes palyginome savo leksikos pogrupį su esamais aukso standarto duomenimis, kad parodytume, jog gautos anotacijos iš tiesų yra aukštos kokybės, sako jie.

Šis požiūris turi didelį potencialą ateičiai. Mohammadas ir Turney teigia, kad turėtų būti nesudėtinga padidinti datų duomenų bazės dydį, o tą pačią techniką galima lengvai pritaikyti kuriant panašias leksikas kitomis kalbomis. Ir visa tai galima padaryti labai pigiai – šiame darbe „Mechanical Turk“ jie išleido 2100 USD.

Esmė ta, kad nuotaikų analizė visada gali būti tokia gera, kokia yra duomenų bazė, kuria ji remiasi. Su „EmoLex“ analitikai turi naują įrankį savo gudrybių rinkiniui.

Nuoroda: arxiv.org/abs/1308.6297 : Crowdsourcing a Word-Emotion Association Lexicon

paslėpti