Didžiųjų duomenų mįslė: kaip ją apibrėžti?

Viena didžiausių naujų idėjų skaičiavimo srityje yra dideli duomenys. Vienbalsiai sutariama, kad dideli duomenys XXI amžiuje keičia prekybą. Kalbant apie verslą, dideli duomenys suteikia precedento neturinčią įžvalgą, patobulintą sprendimų priėmimą ir nepanaudotus pelno šaltinius.





Ir vis dėlto paprašykite vyriausiojo technologijų pareigūno apibrėžti didelius duomenis ir jis ar ji žiūrės į grindis. Tikėtina, kad gausite tiek apibrėžimų, kiek žmonių paklausite. Ir tai yra problema kiekvienam, bandančiam pirkti, parduoti ar naudoti didelių duomenų paslaugas – kas tiksliai yra siūloma?

Šiandien Jonathanas Stuartas Wardas ir Adamas Barkeris St Andrews universitete Škotijoje ima spręsti šį klausimą. Šie vaikinai apžvelgia įvairius apibrėžimus, kuriuos siūlo didžiausios ir įtakingiausios pasaulyje aukštųjų technologijų organizacijos. Tada jie bando iš viso šio triukšmo distiliuoti apibrėžimą, dėl kurio visi gali susitarti.



Wardas ir Barkeris meta savo tinklus toli ir plačiai, bet rezultatai nevienodi. Sunku rasti oficialius apibrėžimus, nes daugelis organizacijų teikia pirmenybę anekdotiniams pavyzdžiams.



Visų pirma, sunku nustatyti didelio sąvoką, ypač todėl, kad duomenų rinkinys, kuris šiandien atrodo didelis, beveik neabejotinai atrodys mažas netolimoje ateityje. Kai viena organizacija pateikia griežtus skaičius, kas yra didelis, kita pateikia santykinį apibrėžimą, o tai reiškia, kad dideli duomenys visada bus daugiau, nei gali apdoroti įprastiniai metodai.

Kai kurios organizacijos pabrėžia, kad dideli duomenų rinkiniai ne visada yra sudėtingi, o maži duomenų rinkiniai visada yra paprasti. Jų esmė ta, kad duomenų rinkinio sudėtingumas yra svarbus veiksnys sprendžiant, ar jis didelis.

Štai Ward ir Barker aprašymų, kuriuos atrado įvairios įtakingos organizacijos, santrauka:



vienas. Gartner . 2001 m. „Meta“ (dabar „Gartner“) ataskaitoje buvo pastebėtas didėjantis duomenų dydis, didėjantis jų kūrimo greitis ir vis daugiau naudojamų formatų ir atvaizdų. Šioje ataskaitoje buvo pateiktas terminas „duomenų kasimas“, tačiau buvo pasiūlytas trigubas apibrėžimas, apimantis tris Vs: tūris, greitis ir įvairovė. Nuo to laiko ši idėja išpopuliarėjo ir kartais apima ketvirtą V: teisingumą, apimantį pasitikėjimo ir netikrumo klausimus.

du. Orakulas . Dideli duomenys yra vertės išvedimas iš tradicinių reliacinių duomenų bazių pagrįstų verslo sprendimų priėmimo, papildytų naujais nestruktūrizuotų duomenų šaltiniais.

3. Intel . Didelės duomenų galimybės atsiranda organizacijose, generuojančiose vidutiniškai 300 terabaitų duomenų per savaitę. Dažniausios tokiu būdu analizuojamų duomenų formos yra verslo operacijos, saugomos reliacinėse duomenų bazėse, vėliau – dokumentai, el. paštas, jutiklių duomenys, tinklaraščiai ir socialinė žiniasklaida.



Keturi. Microsoft . Didieji duomenys yra terminas, vis dažniau vartojamas apibūdinti rimtos skaičiavimo galios – naujausio mašininio mokymosi ir dirbtinio intelekto – taikymo labai dideliems ir dažnai labai sudėtingiems informacijos rinkiniams.

5 Integruotų žinių aplinkos metodas atvirojo kodo projektas. MIKE projektas teigia, kad dideli duomenys priklauso ne nuo duomenų rinkinio dydžio, o nuo jo sudėtingumo. Vadinasi, didelius duomenis apibrėžia didelis permutacijų ir sąveikų laipsnis duomenų rinkinyje.

6 Nacionalinis standartų ir technologijos institutas . NIST teigia, kad dideli duomenys yra duomenys, viršijantys dabartinių ar įprastų metodų ir sistemų pajėgumą arba galimybes. Kitaip tariant, didelio sąvoka yra susijusi su dabartiniu skaičiavimo standartu.



Mišrus maišas, jei toks buvo.

Ward ir Barker ne tik ieškojo apibrėžimų, bet ir bandė geriau suprasti, kaip žmonės vartoja frazę „didieji duomenys“, ieškodami „Google Trends“, kad sužinotų, kurie žodžiai dažniausiai su ja siejami. Jie sako, kad tai yra: duomenų analizė, Hadoop, NoSQL, Google, IBM ir Oracle.

Šie vaikinai drąsiai užbaigia savo apklausą savo apibrėžimu, kuriame bando sujungti šias skirtingas idėjas. Štai jų apibrėžimas:

Dideli duomenys yra terminas, apibūdinantis didelių ir (arba) sudėtingų duomenų rinkinių saugojimą ir analizę, naudojant daugybę metodų, įskaitant, bet tuo neapsiribojant: NoSQL, MapReduce ir mašininį mokymąsi.

Žaidimo bandymas pasiekti vertą tikslą – apibrėžimas, su kuriuo gali sutikti visi, tikrai pavėluotas.

Bet ar tai padės? Atsakymus prašome pateikti komentarų skiltyje žemiau.

Nuoroda: arxiv.org/abs/1309.5821 : Neapibrėžta pagal duomenis: didelių duomenų apibrėžimų tyrimas

paslėpti