Το ευέλικτο και επεκτάσιμο σύστημα της Greenplum συνδυάζει βάσεις Shared-Nothing MPP με το framework Apache Hadoop
Τα νέα περιληπτικά:
- Η EMC παρουσιάζει το EMC® Greenplum® Modular Data Computing Appliance (DCA), την πρώτη ολοκληρωμένη πλατφόρμα της αγοράς για την ανάλυση δεδομένων πολύ μεγάλου όγκου (Big Data).
To EMC DCA επιτρέπει για πρώτη φορά στις επιχειρήσεις να συνδυάζουν την αρχιτεκτονική shared-nothing MPP με το enterprise-class framework Apache Hadoop, δημιουργώντας μια ενιαία πλατφόρμα συν-επεξεργασίας δεδομένων, δομημένων ή μη.
Ο επαναστατικός, modular σχεδιασμός του EMC DCA αλλάζει εντελώς τον τρόπο με τον οποίο επεκτείνονται τα συστήματα αυτά, προσφέροντας στις επιχειρήσεις τη μοναδική δυνατότητα να ξεκινήσουν από ένα μικρό σύστημα το οποίο μπορούν να επεκτείνουν εύκολα και οικονομικά, ανάλογα με τις ανάγκες τους.
Αναλυτικά:
Συνεχίζοντας τη δραστηριότητά της στην ανάπτυξη εργαλείων για την ανάλυση δεδομένων πολύ μεγάλου όγκου ( “Big Data” ), η EMC Corporation (NYSE: EMC) παρουσιάζει την πλατφόρμα EMC® Greenplum® Modular Data Computing Appliance (DCA), την πρώτη ολοκληρωμένη πλατφόρμα της αγοράς για την ανάλυση Big Data. Η πλατφόρμα Greenplum DCA, η διάθεση της οποίας έχει ήδη ξεκινήσει, αξιοποιεί έναν επαναστατικό, modular σχεδιασμό που επιτρέπει στις επιχειρήσεις, για πρώτη φορά, να συνδυάζουν βάσεις RDBMS, αρχιτεκτονικής shared-nothing και παράλληλης επεξεργασίας μεγάλης κλίμακας (MPP), με το Hadoop, το enterprise-class framework της Apache. Η δυνατότητα αυτή, σε συνδυασμό με τις εφαρμογές Greenplum partner BI και ELT, επιτρέπει την πραγματική συν-επεξεργασία δεδομένων, δομημένων ή μη (unstructured), επάνω σε μία ενιαία πλατφόρμα που μπορεί να επεκταθεί εύκολα, βάσει των εκάστοτε αναγκών κάθε οργανισμού.
Τα modules του συστήματος DCA επιτρέπει στις επιχειρήσεις να αλλάξουν εντελώς τον τρόπο με τον οποίο αντιμετωπίζουν την κλιμακωτή επέκταση των συστημάτων τους, δίνοντας τους τη δυνατότητα να ξεκινήσουν με την εγκατάσταση μιας μικρής πλατφόρμας, η οποία θα μπορεί να επεκτείνεται με τρόπο ευέλικτο και οικονομικό (μέσω quarter-rack increments), με βάση τις ανάγκες επεξεργασίας και αποθήκευσης των δεδομένων τους. Εκτός από τη δυνατότητα συνδυασμού των modules Greenplum Database και Greenplum HD (Hadoop), οι οργανισμοί μπορούν επίσης να μεταφέρουν στο νέο cluster και στο ίδιο σύστημα DCA όλες τις εφαρμογές Business Intelligence και τα εργαλεία ELT που διαθέτουν, αξιοποιώντας τα νέα Greenplum Data Integration Accelerator modules. Έτσι, μπορούν να δημιουργήσουν μια ενιαία πλατφόρμα Big Data, στην οποία θα συνδυάζονται structured ή unstructured data και εφαρμογές, εξασφαλίζοντας ενιαίο έλεγχο και διαχείριση, αλλά και κοινή υποστήριξη από την EMC.
Σήμερα, οι επιχειρήσεις αναζητούν τρόπους για να αξιοποιήσουν καλύτερα τα δεδομένα του data warehouse τους. Η τάση αυτή προβλέπεται ότι θα γίνεται όλο και πιο ισχυρή καθώς οι οργανισμοί θα πασχίζουν να φύγουν από τις μεμονωμένες λύσεις business intelligence και να αξιοποιήσουν ολοκληρωμένα εργαλεία ανάλυσης που καλύπτουν το σύνολο της επιχείρησης. Την ίδια στιγμή, δίνουν όλο και μεγαλύτερη σημασία στην ενοποίηση και την ενιαία επεξεργασία των unstructured και των semi-structured δεδομένων που διαθέτουν. Όμως, καθώς τα data warehouses γίνονται όλο και πιο μεγάλα, οι οργανισμοί αρχίζουν να έχουν προβλήματα επεκτασιμότητας, απόδοσης και διαχείρισης των συστημάτων τους, γεγονός που τους οδηγεί στο να αναζητούν τρόπους που θα επιτρέπουν σε περισσότερους χρήστες την ταυτόχρονη πρόσβαση στα δεδομένα που διαθέτουν.
Σήμερα είναι διαθέσιμα τέσσερα modules για το σύστημα Greenplum Data Computing Appliance:
- Tο Greenplum Database Module είναι ένα ειδικά σχεδιασμένο data-warehousing module, με μεγάλες δυνατότητες επέκτασης, η αρχιτεκτονική του οποίου επιτρέπει την ενοποίηση βάσεων, υποσυστημάτων επεξεργασίας και αποθήκευσης δεδομένων και δικτυακών πόρων, σε ένα εύχρηστο enterprise-class σύστημα. Αποτελεί το κορυφαίο της αγοράς, τόσο από πλευράς απόδοσης, όσο και από πλευράς τιμής.
- Tο Greenplum Database High Capacity Module έχει σχεδιαστεί ώστε να μπορεί να αποθηκεύει δεδομένα πολλών petabytes, χωρίς να εκτοξεύει την κατανάλωση ρεύματος, το λειτουργικό κόστος και την χωροταξικές ανάγκες του συστήματος στον ουρανό. Οι επιχειρήσεις που χρειάζεται να αναλύουν λεπτομερειακά έναν εξαιρετικά μεγάλο όγκο δεδομένων ή να αρχειοθετούν τεράστιους όγκους πληροφοριών για μεγάλο χρονικό διάστημα, θα διαπιστώσουν ότι η high-capacity έκδοση της συγκεκριμένης λύσης διαθέτει τον καλύτερο λόγο κόστους ανά μονάδα αποθήκευσης (data warehouse unit).
- To Greenplum HD Module αποτελεί το πρώτο στον κόσμο high-performance module αρχιτεκτονικής Hadoop για την συν-επεξεργασία (co-processing) δεδομένων. Καταφέρνει να παντρέψει συστήματα Hadoop με βάσεις δεδομένων Greenplum, επιτρέποντας έτσι την πραγματική συν-επεξεργασία structured και unstructured data, μέσα από μια ενιαία λύση.
- Το Greenplum Data Integration Accelerator (DIA) Module φιλοξενεί (hosts) αναλυτικά εργαλεία άλλων συνεργατών, τα οποία ενσωματώνει λειτουργικά στο ίδιο ενιαίο σύστημα, εξασφαλίζοντας χαμηλή χρονική υστέρηση (latency) και διασύνδεση σε χρόνο ίδιο με εκείνον των υπόλοιπων modules. Έτσι επιτυγχάνεται η φόρτωση δεδομένων να γίνεται στον ταχύτερο χρόνο της αγοράς, γεγονός που βοηθά είτε στην ταχύτερη εκκίνηση μεγάλου όγκου δεδομένων, είτε στην παράλληλη εκκίνηση πολλών διαφορετικών data batches.
Οι επιχειρήσεις μπορούν να ξεκινήσουν με ένα μονό, βασικό rack, το οποίο περιλαμβάνει ένα Greenplum Database quarter-rack module, κανονικής ή μεγάλης χωρητικότητας, και χώρο για τρία πρόσθετα modules, καθώς επίσης και δύο master servers οι οποίοι αναλαμβάνουν την ταυτοποίηση των χρηστών (authentication), τη βελτιστοποίηση των queries, την εξισορρόπηση του workload μεταξύ των διαφόρων segment servers, τη διαχείριση των δεδομένων μέσω ενός fault tolerant μηχανισμού, και μια σειρά άλλων tasks για το cluster. Καθώς θα αυξάνονται οι ανάγκες από πλευράς επεξεργαστικής ισχύος, οι επιχειρήσεις θα μπορούν να επεκτείνουν το αρχικό σύστημα με quarter-rack increments, χρησιμοποιώντας Greenplum Database, Greenplum HD ή Greenplum DIA modules, σε οποιαδήποτε ποσότητα ή διάταξη, φτάνοντας μέχρι και τα έξι rack συνολικά. Όλα τα modules συνδέονται μέσω καλωδίων interconnect διπλής εφεδρείας, με υψηλή απόδοση και χαμηλό latency.
Η νέα αυτή έκδοση του συστήματος Greenplum DCA επιτρέπει, επίσης, την εύκολη ενσωμάτωση των κορυφαίων λύσεων της EMC, όσον αφορά την προστασία και την ανάκτηση δεδομένων μετά από καταστροφή. Παράλληλα, το Greenplum Database High Availability Group και η αυτοματοποιημένη διαδικασία master-node fail-over διασφαλίζουν την υψηλή διαθεσιμότητα του συστήματος. Πιο συγκεκριμένα, κάθε full-rack σύστημα DCA μπορεί να κρατηθεί ακόμη και με τέσσερις servers εκτός λειτουργίας λόγω βλάβης (ένας από κάθε HA Group), γεγονός που μεταφράζεται σε σχεδόν διπλασιασμό του βαθμού διαθεσιμότητας. Επίσης, το σύστημα ενσωματώνει τις κορυφαίες τεχνολογίες EMC Data Domain® για deduplication και backup, εξασφαλίζοντας έτσι ταχύτατο backup και ανάκτηση δεδομένων, αλλά και ευρεία προστασία σε περίπτωση εκτεταμένης καταστροφής (wide area disaster recovery). Τέλος, η λύση Greenplum DCA SAN Mirror Solution χρησιμοποιεί τα EMC Symmetrix® VMAX™, TimeFinder®/Snap και Symmetrix Remote Data Facility (SRDF®) ώστε να παρέχει προηγμένη δυνατότητα ταυτόχρονης (synchronous) αποθήκευσης και data replication μεταξύ δύο διαφορετικών sites.