Big Data
Ce este "Big Data"?
Big Data este un domeniu dedicat analizei, procesarii si stocarii unei mari cantitati de date care provin de regula din surse disparate.
Folosirea tehnologiei Big Data poate sa aduca o serie larga de beneficii, printre care:
-
Optimizarea operatiunilor
-
Extragerea informatiilor utile
-
Identificarea de noi piete
-
Predictii mult mai precise
-
Detectarea greselilor si fraudelor
-
Inregistrari mult mai detaliate
-
Imbunatatirea deciziilor
-
Descoperiri stiintifice
Principalele caracteristici ale unui dataset Big Data
Volumul: depinde de tipul datelor; cele mai mari volume sunt generate de datele nestructurate.
In fiecare zi volumul de date generat este de aproximativ 2.5EB (2500PB).
Exemple de surse de date de volum ridicat:
-
tranzactiile online
-
date de cercetare stiintifica si experimentala (CERN / Atacama Array Telescope / etc.)
-
social media (Facebook / Twitter / etc.)
-
senzori de diverse tipuri (GPS / RFID / telemetrie / etc.)
Viteza: determina timpul necesar procesarii datelor intrate intr-o entitate Date cu viteza ridicata : generate in 60secunde
-
350.000 tweets
-
300 ore de video
-
171 milioane email-uri
-
330GB generate de senzorii unui motor cu reactie
Varietatea: diferite tipuri (structurate / nestructurate / structurate partial si formate (text, audio, imagini, video, etc.)
Veracitate (veridicitatea): se refera la calitatea si fidelitatea unui set de date. Se poate face o analogie cu raportul semnal / zgomot din electronica; zgomotul este reprezentat de datele care nu pot fi convertite in informatie utila, respectiv fara valoare in timp ce semnalul reprezinta informatia utila. Datele cu un raport ridicat semnal / zgomot au un grad de veracitate ridicat. Datele obtinute intr-o maniera controlata (sisteme online de comanda/inregistrare) au un raport semnal/zgomot ridicat pe cand cele din surse necontrolate (blog-uri / social media).
Valoarea este definita ca utilitatea pentru o anume entitate. Valoarea este legata intuitiv de veracitate in sensul ca datele cu veracitate ridicata au o valoare mare. Valoarea depinde insa si de timpul de procesare. Spre exemplu, indici bursieri obtinuti dupa 20 minute au o valoare foarte mica sau chiar zero fata de cei obtinuti dupa 20ms.
Cu expertiza in domeniul Cluster HPC si Big Data, PRO SYS oferta solutii optimizate necesitatilor si bugetului fiecarei companii sau institutie.
Big Data System - TRUSTER DX720
-
poate fi configurat de la 4 pana la 44 noduri
-
pana la 4.2PB capacitate de stocare
-
interconectare: 10Gb Ethernet
Specificatie nod:
-
2U rackmount
-
Dual Intel® Xeon Scalable Processors
-
Up to 512GB DDR4 2666MHz ECC REG
-
Dual-Port 10Gigabit SFP+
-
12 HDDs SAS hot-swap 3.5" / 2.5"
-
900W 1+1 hot-swap redundant power supply
Software:
-
CentOS
-
Bright Cluster Manager for Data Science