Data Science - Part III - EDA & Model Selection
Indholdsfortegnelse:
Udtrykket "data" er ikke nyt for os. Det er en af de primære ting, der læres, når du vælger informationsteknologi og computere. Hvis du kan huske, betragtes data som den rå form for information. Selvom der allerede eksisterer et årti, er udtrykket Big Data en brummer i disse dage. Som det fremgår af udtrykket, belastninger og masser af data, er Big Data, og den kan behandles på forskellige måder ved hjælp af forskellige metoder og værktøjer til at skaffe sig nødvendig information. Denne artikel fortæller om begreberne Big Data ved hjælp af de 3 V`er, der er nævnt af Doug Laney, en pioner inden for datalagring, som anses for at have startet feltet Infonomics (Information Economics).
Før du fortsætter, vil du måske læse vores artikler om Grunde til Big Data og Big Data Usage for at forstå essensen. De kan tilføje op til dette indlæg for yderligere forklaring på Big Data-koncepter.
Data i dens enorme form, akkumuleret via forskellige midler, blev arkiveret korrekt i forskellige databaser tidligere og blev dumpet efter et stykke tid. Da konceptet viste sig, at jo flere dataene er, desto lettere er det at finde ud af - forskellige og relevante oplysninger - ved at bruge de rigtige værktøjer, begyndte virksomheder at lagre data i længere perioder. Det er som at tilføje nye lagerenheder eller bruge skyen til at gemme dataene uanset hvilken form de blev indkøbt: dokumenter, regneark, databaser og HTML osv. Det arrangeres derefter i rigtige formater ved hjælp af værktøjer, der kan behandle store klumper af Data.
BEMÆRK:
Omfanget af Big Data er ikke begrænset til de data, du indsamler og gemmer i dine lokaler og i skyen. Den kan indeholde data fra forskellige andre kilder, herunder men ikke begrænset til elementer i det offentlige område. 3D-modellen for Big Data er baseret på følgende V`er:
Volume: refererer til styring af datalagring
- Hastighed: refererer til hastigheden af databehandling
- Variety: refererer til gruppering af data for forskellige tilsyneladende ikke-relaterede datasæt
- De følgende afsnit forklarer Big Data modellering ved at tale om hver dimension (hver V) i detaljer.
A] Volumen af store data
Taler om de store data, man kan forstå volumen som en enorm samling af rå information. Selv om det er sandt, handler det også om lageromkostninger for data. Vigtige data kan gemmes både lokalt og på sky, sidstnævnte er den fleksible mulighed. Men skal du gemme alt og alt?
Ifølge en hvidbog udgivet af Meta Group, når mængden af data stiger, begynder dele af data at se unødvendige ud. Det fremgår endvidere, at kun det datamængde skal bevares, som virksomhederne har til hensigt at anvende. Andre data kan kasseres, eller hvis virksomhederne er tilbageholdende med at give slip på "angiveligt uvæsentlige data", kan de dumpes på ubrugte computerenheder og endda på bånd, så virksomhederne ikke skal betale for opbevaring af sådanne data.
Jeg brugte "tilsyneladende ubetydelige data", fordi jeg også tror på, at data af enhver art kan blive påkrævet af enhver virksomhed i fremtiden - før eller senere - og derfor skal det holdes i god tid før du ved, at dataene er faktisk ikke-vigtig. Personligt dumper jeg ældre data til harddiske fra yesteryears og nogle gange på dvd`er. De vigtigste computere og cloud storage indeholder de data, som jeg anser vigtige og ved, at jeg vil bruge. Blandt disse data er der også engang slags data, der kan ende med en gammel harddisk efter få år. Ovennævnte eksempel er kun til din forståelse. Det passer ikke til beskrivelsen af Big Data, da mængden er ret mindre sammenlignet med, hvad virksomhederne opfatter som Big Data.
B
] Hastighed i Big Data Hastigheden af behandling af data er en vigtig faktor når man taler om begreberne Big Data. Der er mange hjemmesider, især e-handel. Google havde allerede indrømmet, at den hastighed, hvormed en sidebelastning er afgørende for bedre placeringer. Bortset fra placeringerne giver hastigheden også komfort til brugerne, mens de handler. Det samme gælder for data, der behandles for andre oplysninger.
Mens du taler om hastighed, er det vigtigt at vide, at det er ud over bare højere båndbredde. Det kombinerer let brugbare data med forskellige analyseværktøjer. Let brugbare data betyder nogle lektier til at skabe strukturer af data, som er nemme at behandle. Den næste dimension - Variation spredes yderligere lys på dette.
C] Forskellige store data
Når der er masser og masser af data, bliver det vigtigt at organisere dem på en måde, så analyseværktøjerne nemt kan behandle data. Der er også værktøjer til at organisere data. Ved opbevaring kan dataene være ustrukturerede og af enhver form. Det er op til dig at finde ud af, hvilken relation det har med andre data med dig. Når du har fundet ud af forholdet, kan du hente passende værktøjer og konvertere dataene til den ønskede formular til struktureret og sorteret opbevaring.
Sammenfatning
Med andre ord er Big Datas 3D-model baseret på tre dimensioner: USABLE-data som du besidder korrekt tagging af data og hurtigere behandling. Hvis disse tre bliver plejet, kan dine data let behandles eller analyseres for at finde ud af, hvad du vil.
Ovenstående forklarer begge koncepter og 3D-modellen af Big Data. De artikler, der er linket i andet afsnit, vil vise sig ekstra støtte, hvis du er ny til konceptet.
Hvis du vil tilføje noget, vær venlig at kommentere.
Virksomheder har gigabyte på gigabyte af følsomme og fortrolige data arkiveret på servere, lagringsarrayer eller backupmedier. Disse virksomheder er afhængige af fagfolk i informationssikkerhed for at beskytte disse data og forhindre uautoriseret adgang. Spørgsmålet er imidlertid "hvem beskytter de følsomme og fortrolige data fra informationssikkerhedsprofessionelle?"
Artwork: Chip TaylorCyber-Ark Software har samlet sin fjerde årlige "Trust, Security and Passwords" -undersøgelse og har afdækket foruroligende statistikker som virksomheder kan finde om. Undersøgelsen - udført med 400 IT-administratorer og informationssikkerhedspersonale hos Infosecurity Europe 2010 og RSA USA 2010 - fandt, at de, der har fået til opgave at beskytte dataene, kan være en af de større trusler mod det.
'The Human Face of Big Data' viser, hvordan tech ændrer sig
"The Human Face of Big Data" tilbyder en geek-out-worthy kaffebordbog, der har til formål at give læsere gennem fotografi og korte artikler et glimt af, hvor kraftige nye databehandlingsfunktioner ændrer folks liv.
Med Windows 10 v1803 giver Microsoft dig nu en måde at se, hvor meget data din Wireless eller Ethernet adapter kan forbruge. Dette er vigtigt på grund af de databegrænsninger, du måtte have med din internetudbyder. Jeg er sikker på, at mange af jer har enten ubegrænset eller stort lager af data båndbredde, men der er mange der ikke har dette privilegium. Thisfeature er vigtig for dem, da data ikke er billige, og dermed kan man forstå, hvor meget data der er forbrugt uden at bruge noget tredjepar
Der er et andet aspekt. Mange gange vil du oprette forbindelse til flere netværk - og du får også kendskab til detaljer om det.