Γράφει η
Παναγιώτα Μωραΐτη

Έχοντας μπει στην εποχή της 4ης Βιομηχανικής Επανάστασης οι επιχειρήσεις υιοθετούν όλο και περισσότερο ψηφιακές τεχνολογικές πρακτικές. Κάθε μέρα παράγονται 2,5 quintillion bytes δεδομένων. Το 1/3 των διοικήσεων μεγάλων και μεσαίων επιχειρήσεων, αξιοποιεί την απρόσκοπτη ροή των δεδομένων και αναλύσεων δίνοντας τους τη διπλή πιθανότητα να υπερβούν τους στόχους ανάπτυξης και της ανταγωνιστικότητας. Με την αύξηση της ψηφιακής τεχνολογίας καθιστά φυσικό και επόμενο να υπάρχει μεγάλη έξαρση των κυβερνοεπιθέσεων.

Όπως αποτυπώνει έρευνα της Checkpoint, στην Ελλάδα φαίνεται πως το 98% των επιθέσεων γίνεται μέσω emails, όταν στην Ευρώπη το ίδιο ποσοστό φτάνει στο 91%. Με την αύξηση της τηλεργασίας, αυξήθηκαν και οι κυβερνοεπιθέσεις σε όλες τις εταιρείες και τους οργανισμούς παγκοσμίως, έχοντας ιδιαίτερη αυξανόμενη τάση στο ηλεκτρονικό ψάρεμα (phising), την κλοπή ταυτότητας και το ransomware. Παρακάτω αναλύονται οι τρόποι αντιμετώπισης της κυβερνοεπίθεσης με την Επιστήμη των Δεδομένων ως κύριο σύμμαχο. 

Machine Learning στον Κυβερνοχώρο

Η Μηχανική Μάθηση ως θεμέλια τεχνική της Επιστήμης Δεδομένων μας προσφέρει πολλές δυνατότητες σε πάρα πολλούς τομείς. Η σημαντική εξέλιξη των τεχνολογιών στις μέρες μας έχουν αποτελέσει σημαία στην ανάπτυξη των τεχνικών μας στο Κυβερνοχώρο και στην προστασία των προσωπικών δεδομένων στις επιχειρήσεις. Είναι γνωστό ότι όταν μια επιχείρηση προστατεύει τα ευαίσθητα δεδομένα της προστατεύει παράλληλα και την οικονομική της ευημερία και την φήμη της.

Η Επιστήμη Δεδομένων (Data Science) αποτελείται από τη Μηχανική Μάθηση (Machine Learning), τη Βαθειά Μάθηση (Deep Learning) και τη Τεχνική Νοημοσύνη (Artificial Intelligence).

Η μηχανική μάθηση μπορεί να δουλεύει με τα δεδομένα ώστε να εκπαιδεύεται να εντοπίζει νέες απειλές από κακόβουλα λογισμικά, για την ειδοποίηση των απειλών και για την προστασία των ευαίσθητων δεδομένων των οργανισμών.

Συνεπώς, η Μηχανική Μάθηση είναι η τεχνική μέσα από την οποία συλλέγει, επεξεργάζεται και αναλύει κατάλληλα τα δεδομένα της ώστε να μπορεί να καθορίσει τι είναι αυτό που αποτελεί απειλή. Είναι κρίσιμης σημασίας η διαδικασία της πρόληψης σε έναν οργανισμό και αυτό επιτυγχάνεται τεχνικά με την διαδικασία αυτής. Έτσι μέσα από τα δεδομένα παράγει χρήσιμα αποτελέσματα μέσα από τα οποία συνεχίζει να “μαθαίνει”, πράγμα που καθιστά συνεχώς καλύτερο αυτόν τον αλγόριθμο. Ο λόγος ύπαρξης της επιστήμης των δεδομένων και της μηχανικής μάθησης είναι ουσιαστικός και ένας καθοριστικός παράγοντας για τον Κυβερνοχώρο. Ιδιαίτερα στις μέρες μας όπου οι περισσότεροι hackers χρησιμοποιούν όλο και περισσότερο τεχνικές μηχανικής μάθησης και τεχνητής νοημοσύνης ώστε να σπάνε το σύστημα και να εισβάλλουν στους οργανισμούς εντοπίζοντας αδύναμα σημεία.

Τα δεδομένα που μπορούν να φανούν χρήσιμα στον κυβερνοχώρο, είναι οι ασυνήθιστες κινήσεις, η ανάλυση εισβολής, ο εντοπισμός ενός κακόβουλου λογισμικού, η ανάλυση ανεπιθύμητων μηνυμάτων, η ανάλυση κάποιας μορφής ανωμαλίας (KDD’99 Cup, DoS, R2L,U2R) ή απάτης και άλλοι παράγοντες που καθιστούν την ανάλυση τους ασυνήθιστη με τους “κανόνες” που υπάρχουν για το δίκτυο. Μέσα από αυτά τα δεδομένα, η Μηχανική Μάθηση χρησιμοποιεί συνεχώς στατιστικές μεθόδους, την εξόρυξη και την ανάλυση των δεδομένων ώστε μέσα από αυτά τα μοντέλα που χτίζει να μπορεί να εντοπίσει τις επιθέσεις των hackers και να εμποδίσει την κίνησή τους μέσα στον κυβερνοχώρο της επιχείρησης. 

Τεχνικές Machine Learning

Οι βασικές τεχνικές της μηχανικής μάθησης είναι classification (κατηγοριοποίηση) , clustering  (συσταδοποιήση),  Association Rule Mining (εξόρυξη κανόνων συσχετίσεων), Μείωση διαστατικότητας (PCA, ICA, CCA κλπ), Regression (παλινδρόμηση), Deep learning (βαθιά μάθηση), παραγοντοποίηση πινάκων, Neural networks (τεχνητά νευρωνικά δίκτυα).

Μέσα από αυτές τις τεχνικές χρησιμοποιούνται αλγόριθμοι ώστε να γίνεται η σωστή διαδικασία πρόληψης και μελέτης των απειλών.

Εποπτευόμενη κατηγοριοποίηση: Όταν τα δεδομένα που εκπαιδεύουμε (train data) συνοδεύονται με ετικέτες (labels) για την κλάση στην οποία ανήκει το καθένα. Έτσι τα νέα δεδομένα κατηγοριοποιούνται με βάση το μοντέλο κατηγοριοποίησης που χτίζεται με τη βοήθεια των δεδομένων εκπαίδευσης.  Στην συγκεκριμένη κατηγορία έχουμε δύο βασικές τεχνικές την κατηγοριοποίηση μέσα από την οποία η χρησιμότητά της αξιοποιείται για τον εντοπισμό διαφορετικών επιθέσεων δικτύου ή για την πρόβλεψη αυτών, όπως στη διάκριση του τύπου του κακόβουλου λογισμικού, ποιος τύπος απάτης είναι πιο συχνός και ανίχνευση γνωστών τύπων κακόβουλων προγραμμάτων. Και την παλινδρόμηση μέσα από την οποία κάνουμε πρόβλεψη συνολικού μεγέθους επιθέσεων πράγμα που σημαίνει πως δίνει μια συνεχής αριθμητική τιμή για έξοδο, ενώ η κατηγοριοποίηση αφορά κατηγορηματικές εξόδους. Η χρησιμότητα της παλινδρόμησης στον κυβερνοχώρο, είναι η ανίχνευση για το αν ο επιτιθέμενος προσπαθεί να χειριστεί τα κανάλια επικοινωνίας με παράκαμψη ελέγχου ή διάφορων τύπων ύποπτων ενεργειών και τις ασυνήθιστες συνδέσεις από άλλον φορητό υπολογιστή, δρομολογητή ή οποιαδήποτε άλλη συσκευή.

Μη εποπτευόμενη κατηγοριοποίηση: Εδώ αναλύεται η τεχνική της συσταδοποίησης όπου δεν γνωρίζουμε εκ των προτέρων τις ετικέτες- κλάσεις στις οποίες ανήκουν τα δεδομένα εκπαίδευσης. Μέσα από αυτά τα δεδομένα η τεχνική αυτή ανακαλύπτει τις κλάσεις αυτές στις οποίες ανήκουν δημιουργώντας μοτίβα. Η χρησιμότητα αυτής της τεχνικής χρησιμοποιείται για τον εντοπισμό κυβερνοεπιθέσεων κακόβουλων λογισμικών, όπου συνεχώς μεταβάλλονται και δημιουργούν μια καινούργια δομή ώστε να μην εντοπίζονται αποκαλύπτοντας έτσι τις νέες δομές τους μέσα από μοτίβα εντοπισμού ανωμαλιών και παραβιάσεων των κανόνων. Ακόμα χρησιμεύει στον εντοπισμό ασυνήθιστης σύνδεσης όσον αφορά τον τόπο, χρόνο κ.α και την προστασία των email από διαχωρισμό νόμιμων συνημμένων αρχείων από τα ύποπτα.

Εξόρυξη κανόνων συσχέτισης: Αυτή η τεχνική είναι η εύρεση ταυτόχρονων εμφανίσεων δεδομένων. Αυτό δηλώνει ένα είδος συσχέτισης. Συμβάλλει στην πιθανή εμφάνιση σχέσεων και συνυπάρξεων των δεδομένων. Είναι ένα μοντέλο Machine learning για ανάλυση δεδομένων για μοτίβα ή συνυπάρξεις σε μια Βάση Δεδομένων. Επίσης πολύ χρήσιμη τεχνική για την ανακάλυψη κανόνων συσχέτισης μεταξύ χαρακτηριστικών ασφαλείας.

Βαθιά Μάθηση: Η βαθιά μάθηση χρησιμοποιείται σε πιο σύνθετα δεδομένα όπως εικόνες, ήχος και κείμενα.

Νευρωνικά δίκτυα: Είναι ένα μοντέλο Μηχανικής Μάθησης που ερμηνεύεται από τα βιολογικά νευρωνικά δίκτυα στον ανθρώπινο εγκέφαλο. Και η χρησιμότητά της γίνεται για την ανίχνευση εισβολών και ταξινόμηση κίνησης κακόβουλου λογισμικού.

Εν κατακλείδι, γίνεται γνωστό ότι όλες οι τεχνικές της Επιστήμης Δεδομένων δεν μπορούν απλά να εντοπίσουν τις απειλές και να τις αποκλείσουν, πράγμα που είναι εξαιρετικά επικίνδυνο διότι υπάρχει ήδη ο κίνδυνος των ιών στο σύστημα, αλλά μπορεί να προβλέψει και να αποτρέψει τις επόμενες επιθέσεις. Έτσι λοιπόν κλείνουν οι “τρύπες” στο τοίχος προστασίας και δημιουργείται ένα καλύτερα θωρακισμένο περιβάλλον προστασίας για τα δεδομένα.