Windows

Facebooks store dataplaner omfatter lager, hurtigere analyse

??REINICIAR de fabrica SAMSUNG Galaxy J7 NEO? - [Hard Reset] 2018 [MÉTODO FÁCIL]

??REINICIAR de fabrica SAMSUNG Galaxy J7 NEO? - [Hard Reset] 2018 [MÉTODO FÁCIL]
Anonim

Facebook kan opskrive de data, den har på sine en milliard plus brugere for dens reklameafkast, men den analyse, som webstedet udfører på disse data, forventes fortsat at indebære mange udfordringer i løbet af det kommende år, siger en ingeniør. Problemet, som Facebook har været tvunget til at kæmpe med "meget hurtigere end den brede industri" ud af mere effektive måder at behandle brugeradfærd på webstedet, hvordan man bedre kan få adgang til og konsolidere forskellige typer data på tværs af Facebooks flere datacentre og udarbejde nye open source-softwaresystemer til at behandle disse data, Ra vi Murthy, som forvalter Facebooks analyseinfrastruktur, sagde tirsdag.

"Facebook er et dataselskab, og den mest oplagte ting folk tænker på på den front er annoncer rettet mod," sagde han på en industrikonference i San Francisco under en tale om Facebooks back-end-infrastruktur, dataanalyse og open source-projekter.

[Yderligere læsning: De bedste tv-streamingtjenester]

"Men det går dybere end det her," sagde han.

Et stort område af bag-the-scenes arbejde vedrører Facebooks analyseinfrastruktur, der er designet til at fremskynde produktudvikling og forbedre brugeroplevelsen gennem en dyb analyse af alle tilgængelige data, uanset om det består af de handlinger brugere bruger på webstedet som statusopdateringer for post eller som applikationer, som de bruger inden for Facebook på forskellige enheder.

Facebook bruger i øjeblikket flere forskellige open source software systemer kendt som Hadoop, Corona og Prism til at behandle og analysere sine data, som virksomheden vil fokusere på at gøre hurtigere og mere effektiv i løbet af de næste seks til tolv måneder, siger Murthy.

Mange af virksomhedens udfordringer er knyttet til, hvad Facebook refererer til som dets datalager, der kombinerer data fra flere kilder til en database, hvor brugeraktivitet kan analyseres samlet set som ved at give en daglig rapport om antallet af fotos, der er blevet tagget i et bestemt land, eller se på hvor mange brugere i et bestemt område der er involveret i sider, der blev anbefalet til dem.

Analysen er designet til at optimere brugeroplevelserne og finde ud af, hvad brugere kan lide og ikke kan lide, men det bliver også mere beskatende, da Facebook kan få adgang til flere og flere data om sine brugere, sagde Murthy. I øjeblikket tager Facebook-lageret 500 ark nye data hver dag, eller 500.000 gigabyte. Lageret er vokset næsten 4000 gange i størrelse i løbet af de sidste fire år, "langt forud for Facebook's brugsvækst", siger Murthy.

For at håndtere disse problemer har Facebook udviklet sit Prism-software system, der er designet til at udføre nøgleanalysefunktioner på tværs af virksomhedens datacentre over hele verden og opdele analyserne i "klumper", siger Murthy. På den måde vil en analyse af f.eks. En metrisk relateret til brugernes nyhedsfeeds ikke tilstoppe lageret mere generelt.

"Vi tænker i stigende grad på, hvordan man fanger disse data," sagde han. > Virksomheden arbejder også på et system, der tager en helt anden tilgang til forespørgslen af ​​lageret for at give en responstid inden for få sekunder, siger Murthy.

Et andet område Facebook er løbende på at forbedre sin transaktionsinfrastruktur, "Som håndterer den mere grundlæggende daglige databehandling af f.eks. Likes, kommentarer og statusopdateringer for at holde det sociale netværk i gang. Nogle af de spørgsmål, som virksomhedens ingeniører og analytikere kigger på, omfatter at finde ud af, hvordan man kan prognose den faktiske vækst i denne type data, og hvor meget computing Facebook virkelig bør tildele det, sagde Murthy.

"Kan vi forudsige, hvad det vil vare seks måneder fra nu?" Sagde han.

I mellemtiden er Facebook også involveret i en langsigtet indsats for at gøre sine fysiske servere mere effektive. Virksomheden startede sin Open Compute Project i 2011 med det formål at designe modulariserede servere, der giver kunderne større kontrol over netværk, hukommelse, strømforsyninger og andre komponenter, der går ind i deres servere. Det blev udvidet til at indarbejde ARM-processorer i januar.