Windows

Big Data 3 Vs - Concepts & Models

Data Science - Part III - EDA & Model Selection

Data Science - Part III - EDA & Model Selection

Indholdsfortegnelse:

Anonim

Udtrykket "data" er ikke nyt for os. Det er en af ​​de primære ting, der læres, når du vælger informationsteknologi og computere. Hvis du kan huske, betragtes data som den rå form for information. Selvom der allerede eksisterer et årti, er udtrykket Big Data en brummer i disse dage. Som det fremgår af udtrykket, belastninger og masser af data, er Big Data, og den kan behandles på forskellige måder ved hjælp af forskellige metoder og værktøjer til at skaffe sig nødvendig information. Denne artikel fortæller om begreberne Big Data ved hjælp af de 3 V`er, der er nævnt af Doug Laney, en pioner inden for datalagring, som anses for at have startet feltet Infonomics (Information Economics).

Før du fortsætter, vil du måske læse vores artikler om Grunde til Big Data og Big Data Usage for at forstå essensen. De kan tilføje op til dette indlæg for yderligere forklaring på Big Data-koncepter.

Data i dens enorme form, akkumuleret via forskellige midler, blev arkiveret korrekt i forskellige databaser tidligere og blev dumpet efter et stykke tid. Da konceptet viste sig, at jo flere dataene er, desto lettere er det at finde ud af - forskellige og relevante oplysninger - ved at bruge de rigtige værktøjer, begyndte virksomheder at lagre data i længere perioder. Det er som at tilføje nye lagerenheder eller bruge skyen til at gemme dataene uanset hvilken form de blev indkøbt: dokumenter, regneark, databaser og HTML osv. Det arrangeres derefter i rigtige formater ved hjælp af værktøjer, der kan behandle store klumper af Data.

BEMÆRK:

Omfanget af Big Data er ikke begrænset til de data, du indsamler og gemmer i dine lokaler og i skyen. Den kan indeholde data fra forskellige andre kilder, herunder men ikke begrænset til elementer i det offentlige område. 3D-modellen for Big Data er baseret på følgende V`er:

Volume: refererer til styring af datalagring

  1. Hastighed: refererer til hastigheden af ​​databehandling
  2. Variety: refererer til gruppering af data for forskellige tilsyneladende ikke-relaterede datasæt
  3. De følgende afsnit forklarer Big Data modellering ved at tale om hver dimension (hver V) i detaljer.

A] Volumen af ​​store data

Taler om de store data, man kan forstå volumen som en enorm samling af rå information. Selv om det er sandt, handler det også om lageromkostninger for data. Vigtige data kan gemmes både lokalt og på sky, sidstnævnte er den fleksible mulighed. Men skal du gemme alt og alt?

Ifølge en hvidbog udgivet af Meta Group, når mængden af ​​data stiger, begynder dele af data at se unødvendige ud. Det fremgår endvidere, at kun det datamængde skal bevares, som virksomhederne har til hensigt at anvende. Andre data kan kasseres, eller hvis virksomhederne er tilbageholdende med at give slip på "angiveligt uvæsentlige data", kan de dumpes på ubrugte computerenheder og endda på bånd, så virksomhederne ikke skal betale for opbevaring af sådanne data.

Jeg brugte "tilsyneladende ubetydelige data", fordi jeg også tror på, at data af enhver art kan blive påkrævet af enhver virksomhed i fremtiden - før eller senere - og derfor skal det holdes i god tid før du ved, at dataene er faktisk ikke-vigtig. Personligt dumper jeg ældre data til harddiske fra yesteryears og nogle gange på dvd`er. De vigtigste computere og cloud storage indeholder de data, som jeg anser vigtige og ved, at jeg vil bruge. Blandt disse data er der også engang slags data, der kan ende med en gammel harddisk efter få år. Ovennævnte eksempel er kun til din forståelse. Det passer ikke til beskrivelsen af ​​Big Data, da mængden er ret mindre sammenlignet med, hvad virksomhederne opfatter som Big Data.

B

] Hastighed i Big Data Hastigheden af ​​behandling af data er en vigtig faktor når man taler om begreberne Big Data. Der er mange hjemmesider, især e-handel. Google havde allerede indrømmet, at den hastighed, hvormed en sidebelastning er afgørende for bedre placeringer. Bortset fra placeringerne giver hastigheden også komfort til brugerne, mens de handler. Det samme gælder for data, der behandles for andre oplysninger.

Mens du taler om hastighed, er det vigtigt at vide, at det er ud over bare højere båndbredde. Det kombinerer let brugbare data med forskellige analyseværktøjer. Let brugbare data betyder nogle lektier til at skabe strukturer af data, som er nemme at behandle. Den næste dimension - Variation spredes yderligere lys på dette.

C] Forskellige store data

Når der er masser og masser af data, bliver det vigtigt at organisere dem på en måde, så analyseværktøjerne nemt kan behandle data. Der er også værktøjer til at organisere data. Ved opbevaring kan dataene være ustrukturerede og af enhver form. Det er op til dig at finde ud af, hvilken relation det har med andre data med dig. Når du har fundet ud af forholdet, kan du hente passende værktøjer og konvertere dataene til den ønskede formular til struktureret og sorteret opbevaring.

Sammenfatning

Med andre ord er Big Datas 3D-model baseret på tre dimensioner: USABLE-data som du besidder korrekt tagging af data og hurtigere behandling. Hvis disse tre bliver plejet, kan dine data let behandles eller analyseres for at finde ud af, hvad du vil.

Ovenstående forklarer begge koncepter og 3D-modellen af ​​Big Data. De artikler, der er linket i andet afsnit, vil vise sig ekstra støtte, hvis du er ny til konceptet.

Hvis du vil tilføje noget, vær venlig at kommentere.