Big Data vs. Brugeroplevelse

Dér, et af tidens helt store modebegreber: “Big Data”.

Du har sandsynligvis hørt det i denne uge, muligvis endda i dag, og du har sikkert også bemærket de positivt-kligende overtoner, der hænger ved begrebet – det glødende, nærmest ærefrygtige tonefald, ordene ytres med, og den delte antagelse om, at dette koncept indeholder alle svarene.

Specifikt, svarene på alle vores spørgsmål om kunder og/eller brugere.

Det er underforstået (eller explicit), at med teknologiens hjælp kan vi nu endelig, helt uformelt, indsamle så mange data om folk, at vi bagefter, ved at grave ned i dem, kan finde ethvert mønster der måtte være, og kunden således vil være en åben bog for os.

darpa_wallpaper

Nu er der er intet, vi ikke kan vide om dem.

Lad os se på det – og lad os begynde med antagelsen om, at jo mere data man har, jo bedre bliver éns information. Dette er en ret udbredt antagelse, men det passer faktisk ikke. Det vil sige, sammenhængen mellem data-mængde og resultatets kvalitet er ikke så stærk, som man måske skulle tro.

Vi kender det fra os selv; sommetider bliver vores evne til at nå en konklusion negativt påvirket af for mange valgmuligheder, og/eller for megen information om hver mulighed. Dette bekræftes af undersøgelser – også under kontrollerede forhold ser man, at beslutnings-dygtigheden og kvaliteten daler, når der er flere data, alt andet lige. Der er en forventning om, at computere vil være bedre til den slags, fordi de ikke er hæmmet af vores menneskelige begrænsninger, og deres adfærd kan programmeres og defineres præcis, som vi vil have den.

Dette er der også en grad af sandhed i; på nuværende tidspunkt er nogle af datafelterne så store, at de computere, vi har, ikke kan håndtere dem inden for realistiske tidsrammer, men efterhånden som computere bliver hurtigere, flytter disse grænser sig selvfølgelig. Imidlertid finder vi også, tingene har det med at blive “statistiske”, når vi bevæger os op i disse skalaer – det vil sige, fejl og skævheder viser sig, og vi begynder at se adfærd, der, af mangel på et bedre ord, kan kaldes “subjektiv”, eller ligefrem “irrationel”.

Det er måske nemmere at forstå, hvis man gør sig klart, hvor mange data, vi har med at gøre, så tænk på, for eksempel, at Microsoft alene har mere end en million individuelle servere, og Google opbevarer så mange data, at de, hvis de blev overført til hulkort, ville kunne dække et område på størrelse med Storbritanien i en dybde på 4 kilometer. Og disse tal blegner ved siden af hastighederne – Google håndterer mere end tusind gange så meget information som hele USA’s Kongresbibliotek hver dag, med lignende tal for Facebook, Amazon og andre services. Det er selvfølgelig også de tunge drenge, men selv mere “almindelige” big data-sæt kan indeholde hundredevis af terabyte data.

google_ice

billede fra XKCD, selvfølgelig

Vi ved også, at der er en nedre grænse for, hvor meget man kan simplificere komplekse sammenhænge (ofte kaldet “systemer”), før man ikke længere taler om den samme situation. Nogle systemer er simpelthen så komplekse, at enhver beskrivelse eller analyse af dem, der er rimeligt tro over for situationen, i sig selv nødvendigvis må blive kompleks. Pointen er her, at et datasæt, der omfatter adfærden hos et meget stort antal mennesker, som registreret ved mange individuelle datapunkter (f.eks. klik eller ‘likes’, for ikke at nævne GPS-lokalisering eller tids-markører), med sikkerhed vil være enormt komplekst, og det er ret usandsynligt, at det kan kollapses til nogle enkle og tilgængelige parametre, der stadig er meningsfulde i forhold til systemet. Dette princip er uafhængigt af hastighed og computerkraft, og må altså tages i betragtning uanset den tekniske udvikling.

Alt dette er ikke for at sige, at big data, eller analysen heraf, er ubrugeligt, for det ville være usandt (og temmeligt stupidt) at påstå. Som nævnt bliver tingene statistiske oppe i de luftlag, men det er jo ikke sådan, at vi ikke ved, hvordan man laver statistik – så længe vi husker, at enhver statistisk fortolkning netop er dét, en fortolkning. Så uanset hvor mange data eller hvor hurtige computere, vi får, så vil vi måske aldrig vide “det hele” – for selv hvis vi gjorde, kunne vi ikke kondensere det til brugbar form inden for nogen realistisk tidsskala.

Så muligvis er de dér irriterende menneskelige karakteristika ved vore egne sind, som vi håber at eliminere ved hjælp af computere, måske slet ikke egenskaber ved vores hjerner, men bare sådan, det er, når man behandler meget store datamængder meget hurtigt, og laver dem til noget, der kan bruges i en given konkret kontekst – husk på, at hjernen er noget af en computer (som i øvrigt slet ikke er en computer).

Så på samme måde, som vi har brug for eksperter i tal og statistik til at hjælpe os med disse enorme datasæt, er der også brug for eksperter i menneskelig adfærd – d.v.s. folk som mig – for at opnå en brugbar, produktiv forståelse af brugere og/eller kunder.

Min anden observation er lidt mere prosaisk (pyha!) – det er blot dette: For at kunne se vores brugeres adfærd i disse Big Data-sæt, så kræver det, at denne adfærd har fundet sted, og det betyder, at Big Data er noget, man tyr til “after the fact”, så at sige.

Vi bruger også sådan nogle post-hoc datasæt i brugeroplevelses-sammenhæng, men det, vi er særligt gode til, og som datasæt ikke kan, er at adressere bruger/kunde-adfærd på forhånd, før produktet eller service’en rulles ud – én af vores centrale ydelser er at hjælpe dig til at undgå forudsigelige og dyre fejltagelser.

Hvordan vi gør det, vil du kunne læse om i en senere artikel. Stay tuned.