Big data

Vad är Big Data?

 

Medan stora data har blivit en trendig slagord, är den goda nyheten att det finns verklig substans till den. Med lite ansträngning, kan även icke-tekniska personer förstå ämnet och börja sätta det att fungera för deras företag.

John Foreman, chief data forskaren för MailChimp som har också konsulteras för Coca-Cola och försvarsdepartementet, erbjuder en kortfattad definition i boken Data Smart: använda Data Science att omvandla Information till Insight.Big data är ”användningen av statistik och matematik för att omvandla data till insikter, beslut och produkter ”.

Förman påpekar också att du inte behöver en enorma datamängd att komma igång – din lokala slaktare butik har försäljningsuppgifter som kan analyseras. Men om du arbetar för ett stort företag och har försäljningsrekord för miljontals kunder, desto bättre.

En del av avmystifiera det trendiga slagordet ”big data” är att förstå att du analyserar ditt företag som använder tekniker för statistisk analys, av vilka några har funnits i 50 år eller mer.

Vad är fundamentalt annorlunda om 21st-century fenomenet ”big data” är den datorkraft som vi kan föra för att bära. Framstegen inom de sensorer som samlar in uppgifter, de enheter som lagrar det, och programvara och hårdvara för att analysera det betyder att vi effektivt kan analysera långt mer material än vad som var möjligt i tidigare århundraden.

Överväga att världens data under 2013 var cirka 1.200 exabytes — om denna data skrevs till CD-ROM, du kan placera dem i fem mäktiga högar, som kunde nå månen enligt Big Data: A Revolution som kommer att förändra hur vi lever, arbete , och tror. Eller att varje dag, varje amerikansk arbetare genererar fem gigabyte i personuppgifter — som innehåller e-post, webbsökningar, strömmad musik eller filmer, och röst- eller videochatt — plus andra data som passerar genom Internet från trafik sensorer, övervakning kameror och GPS-mätningar från telefoner enligt SAS Institute dataexpert Jared Dean.

Det är inte längre svårt att skapa och lagra gigabyte data — utmaningen är att hitta något meningsfullt i allt det materialet. Vad gör analysera data sådan en rik källa till data och insikter?

 

Big data är bra på att hitta relationer men inte på kausalitet

Ett bra ställe att börja är med skillnaden mellan ”vad du vill” och ”varför du gillar det” — eller vad som tekniskt kallas skillnaden mellan korrelation och kausalitet. Som Viktor Mayer-Schönberger och Kenneth Cukier som påpekar i sin bok Big Data: en Revolution som kommer att förändra sättet vi arbetar, Live, och tror, dessa algoritmer vet inte whyyou som vad du gillar. Men de har lärt sig vad du kommer att gilla baserat på vad du har köpt innan.

Det verkar lite konstigt när man tänker på det – en algoritm kan berätta att du förmodligen gillar det nya Matt Damon thrillern på grund av den Mark Wahlberg biobiljetter som du köpte senast sommar men kan inte säga exakt varför. Alla dataanalys kan berätta är att Wahlberg fans tenderar att gilla Damon samt.

Att hitta korrelationer mellan produkt A och produkt B, som en Damon film och en Wahlberg film, är något datorer är väldigt bra på. Men kausalitet är omöjligt att representera i standard matematiska ekvationer.

Ur ett affärsmässigt perspektiv, det är OK – vilka frågor som är långt mer än varför. Att veta vad du kommer att gilla driver klick och försäljning. Exempelvis kommer tre fjärdedelar av nya Netflix order via algoritmisk förslag. Och en tredjedel av Amazon försäljning genom personalisering algoritmer som analyserar dina tidigare inköp för att hitta föreningar med produkter som andra personer har gillat. Massiva offentliga företag har delvis byggts ovanpå stordatas befogenheter att hitta korrelation.

Amazon och Netflix rekommendation motorerna är ännu bara ett sätt att förvandla stora datamängder till insyn i verksamheten. Skickliga dataexperter har en mängd statistiska metoder — några nya, några gamla — för att analysera information. Innan du börjar arbeta med en data scientist, dock finns det en viktig fråga som måste du fråga först.

 

Vad är vilken typ av datamängd som du vill lära dig mer om?

Om du inte frågar denna ytterst viktiga fråga, kunde du få överväldigad med rådata. Emory University business professor David Schweidel noterar att många chefer känner trycket att bara göra något med big data, så de börjar samla utan ett tydligt mål i sikte. I sin bok Profiting från Dataekonomin: förstå de roller av konsumenterna, innovatörer och tillsynsmyndigheter i en data-driven världen, Schweidel skriver: ”i stället för att tänka igenom vad de försöker uppnå och samla in data som är lämpliga för itu med dessa mål, de tror att de har en idiotsäker strategi: spåra ‘allt.’ ”

Om du ”spåra allt”, måste du fortfarande gå igenom informationen igen när du räkna ut vad du försöker göra. Och under tiden du kommer inredningar upp programvara, maskinvara och personalkostnader.

En viktiga takeaway? Inte bara rusa in och börja spåra allt. Du kan även hitta att ditt företag har redan samlat in terabyte användbar data. Det bästa sättet att komma igång är att titta på typerna av problem som människor har framgångsrikt attackerade med big data för att se vad du kan åstadkomma i ditt företag. Här är några exempel: • Branding: titta på omnämnanden av en produkt på Twitter för att härleda en analys av ”kunden känsla”. Genom att samla omnämnanden av ditt varumärke från Twitter, kan dataexperter inte bara säga hur kunder tycker om det men också hur starkt de känner för det. Dataexperter också då kan hjälpa dig att automatisera dina svar: retweets positiva kommentarer och prompt, privata meddelanden till missnöjda kunder.

  • Marknadsundersökningar: analysera din tidigare försäljningsrekord för att segmentera din kundbas så att du kan hitta och rikta likasinnade kluster av personer med noggrant anpassade marknadsföringskampanjer.
  • Verksamhet: analysera geolocation data av din leverans förare att optimera de mest effektiva rutterna i form av bensin förbrukning och tid. Dataexperter kan jämföra aktuell data om var din skåpbilar är på väg med historiska data om vilka vägar är överbelastade med fordon eller kräver tidskrävande vänster svängar över trafiken.
  • Produktionsoptimering: ett stort dryck företag används data för att hitta en optimal blandning av olika typer av apelsiner, som har olika kostnader, strävhet, sötma och tartness, för att maximera vinsten bibehållen kvalitetsnormer.
  • Forskning: en stor hedgefond anlitade forskare att hålla koll på nyheter i realtid på 200 företag i taget. Laget var spenderar så mycket tid söker data, som letar efter företag tryck releases, föreskrivande platser, SEC-dokument, och uppdateringar till företagets webbplatser, att de inte kunde hålla jämna steg med alla förändringar. Data konsult BrightPlanet sammanställt en algoritm för att söka på Internet och sammanställa information automatiskt, befriande upp teamet att fokusera på att analysera resultaten.

 

Intressanta funktioner av BIG DATA-analyser det finns några ovanliga funktioner av massiva datamängder som du bör ha i åtanke

  1. ”oreda” big data; Du kan bli förvånad över hur mycket tid dina konsulter använder på en scen av det projekt som kallas ”förberedelse av data”. Bli inte. Eftersom datorer, databaser och algoritmer har fått så snabb, få stora datamängder, ofta oorganiserad och dras från flera källor, i stånd att analyseras är ganska utmanande. ”De flesta av den tid som tillbringas på ett projekt för modellering av data är faktiskt redo data för analys”, säger Jared Dean, i sin bok Big Data, Data Mining och Machine Learning: värdeskapande för företagsledare och yrkesverksamma.

Dataexperter beskriva ogenerat deras datamängder som ”rörig”. (Det är verkligen den tekniska termen för det). Föreställa sig, exempelvis berätta en web-genomsökning algoritm för att sammanställa enorma mängder av pressmeddelanden, tweets, nyhetsinslag och regeringen anmälningar från olika webbplatser och i olika format. Resultaten från web-genomsökning algoritmen kommer inte att bestå av snyggt, välorganiserat rader i ett kalkylblad eller fält i en databas.

Denna ”ostrukturerade” data kommer att behöva ”rengöras” eller gjort enhetlig på ett sätt som algoritmer kan analysera. Det är därför ”förberedelse av data” ofta tar så mycket tid.

  1. du behöver inte prova till skillnad från analoga dagarna av statistik, när du kan ha gett en undersökning på 1.100 personer att stå för din hela kundbas, computing power dag innebär kan du titta på alla data. Och med alla data i stället för ett prov kan göra en enorm skillnad.

Till exempel beror kreditkortsbedrägeri på att hitta de statistiska extremvärden som begår bedrägeri, bland de många miljontals vanliga användare. Bedragarna är den ökända nålen i höstacken — statistiker kallar en ”extremitet-baserad modell”, eftersom den ovanliga avvikare datapunkten är just vad du söker. Som Jared förklarar Dean, om du söker kreditkortsbedrägeri som uppstår.1 procent av tiden, och enda prov 20 procent av data, du förmodligen inte kommer att hitta någon av bedrägeri. Du behöver alla tidigare data och tidigare kända bedrägliga transaktioner särskilt tillförlitligt upptäcka misstänkta transaktioner i framtiden.

3 Datafication” Viktor Mayer-Schönberger och Kenneth Cukier myntade termen ”datafication”, vilket innebär att billiga sensorer, maskinvara och lagring av data har gjort det möjligt att samla in vissa typer av data som var opraktiskt att spåra tidigare. Till exempel ville UPS hitta mer bränslesnåla stigar genom städer, så de spåras geolocation information på lastbilar att studera problemet. I synnerhet dataexperter för UPS letade efter sätt att undvika trafikstockningar, och att minska antalet vänster varv över korsningar, vilket kan leda till olyckor och tid slösas bort medan du väntar på att vända. I 2011 kunde företaget att raka 30 miljoner miles bort av rutter, spara 3 miljoner gallon bränsle och minska CO2 utsläppen med 30 000 ton. Innan uppkomsten av smartphones och en handelsvara av GPS-sensorer, skulle denna typ av analys ha varit oöverkomligt dyr, även för ett stort företag. Håll ögonen öppna för möjligheter till ”dataify” funktioner i din verksamhet som inte kanske har varit möjligt innan.

  1. data avgaser eftersom lagring och uppsamling har blivit så billigt, du kan spara motsvarande data ”skräp” och kanske hitta sätt att använda den. Exempelvis Google tar emot en stor mängd sökfrågor med stavfel eller felstavade ord varje dag. Företaget har tagit denna ”avgaser” från sin lukrativa sökmotor verksamhet för att inte bara förbättra Sök (”menade du ornitolog”?) men också att bygga en kraftfull stavningskontroll. Stavningskontrollen fungerar i många språk och har integrerats i andra Google-produkter som Gmail och Google Docs. Vara på jakt efter liknande möjligheter att göra använda av data avgaser i stället för att kasta det.

Den nästa steg som du har en bättre förståelse av big data, är det nu dags att börja dyka i företagets data att snappa upp insikter.