Μια σύντομη ιστορία της Επεξήγησης μοντέλων μηχανικής μάθησης

Εάν το λογισμικό έφαγε τον κόσμο, τα μοντέλα θα το τρέχουν. Αλλά είμαστε έτοιμοι να ελέγχονται από έξυπνα λογισμικά blackbox;

Πιθανώς όχι. Και αυτό είναι δίκαιο. Εμείς, ως άνθρωπος, πρέπει να καταλάβουμε πώς λειτουργεί η AI - ειδικά όταν οδηγεί τις συμπεριφορές ή τις επιχειρήσεις μας. Γι 'αυτό σε μια προηγούμενη δημοσίευση, εντοπίσαμε τη διαφάνεια της μηχανικής μάθησης ως μία από τις πιο καυτές τάσεις AI.

Ας δούμε μια σύντομη ιστορία της επεξήγησης των μοντέλων μηχανικής μάθησης - που απεικονίζεται από πραγματικά παραδείγματα από τη λύση AI Claim Management για ασφαλιστές.

Έναρξη απλού - Συντελεστές γραμμικών μοντέλων

Η ευκρίνεια των γραμμικών μοντέλων είναι απλή. Η πρόβλεψη είναι ο γραμμικός συνδυασμός των τιμών χαρακτηριστικών, σταθμισμένοι από τους συντελεστές μοντέλου.

Διαθέτει συνεισφορά ενός συστήματος γραμμικής πρόβλεψης διαχείρισης αξιώσεων (απεικόνιση)

Ωστόσο, η υψηλότερη ακρίβεια για μεγάλα σύγχρονα σύνολα δεδομένων επιτυγχάνεται συχνά από πολύπλοκα μοντέλα, τα οποία ακόμη και οι ειδικοί δυσκολεύονται να ερμηνεύσουν (βλ. Εικόνα παρακάτω).

Η επεξήγηση - Ανταλλαγή ακρίβειας (πηγή)

Εάν η γραμμική επεξήγηση των μοντέλων είναι εύκολη, πώς να το επιτύχετε σε πιο ισχυρά μοντέλα μη γραμμικής μηχανικής μάθησης, όπως τυχαία δάση;

Ιούλιος 2014 - Η σημασία των τυχαίων δασών

Στη διδακτορική του διατριβή, ο Gilles Louppe αναλύει και συζητά την ερμηνεία ενός προσαρμοσμένου τυχαίου δασικού μοντέλου στα μάτια των μέτρων μεταβλητής σημασίας. Αυτό είναι πίσω από το περίφημο χαρακτηριστικό .feature_importances_ του scikit-learn RandomForest () εκτιμητή.

Εδώ είναι το αποτέλεσμα των «εισαγωγών χαρακτηριστικών» στο πλαίσιο μιας προγνωστικής λύσης διαχείρισης ασφαλιστικών απαιτήσεων.

Περιλαμβάνει τη σημασία του συστήματος διαχείρισης προβλέψεων ασφάλισης Zelros (απεικόνιση)

Αύγουστος 2015 - Το Random Forests διαθέτει συνεισφορά για μια δεδομένη πρόβλεψη

Η προηγούμενη προσέγγιση είχε σκοπό να εξηγήσει τη σημασία των χαρακτηριστικών ενός προσαρμοσμένου μοντέλου σε παγκόσμιο επίπεδο πληθυσμού. Αυτή η νέα προσέγγιση προσπαθεί να εξηγήσει ξεχωριστά τις συνεισφορές των χαρακτηριστικών για κάθε πρόβλεψη.

Τι κάνει αυτό που το μοντέλο μηχανικής εκμάθησης προβλέπει ότι η αξίωση ασφάλισης δανείου M. xxx είναι απλή και θα μπορούσε να διευθετηθεί αυτόματα; Είναι κυρίως το επιτόκιο; Ή το ποσό του κεφαλαίου; Ή το είδος του δανείου;

Πρακτικά, ο υπολογισμός της συνεισφοράς των δυνατοτήτων κατέστη δυνατή χάρη στη νέα ικανότητα του scikit-learn 0.17: επιτρέποντας την αποθήκευση τιμών για όλους τους κόμβους αντί για φύλλα μόνο για δέντρα αποφάσεων.

Αυτή η προσέγγιση έχει περιγραφεί εδώ και είναι διαθέσιμη στο πακέτο Treeinterpreter.

Διαθέτει συνεισφορά του συστήματος διαχείρισης προβλέψεων ασφαλιστικών απαιτήσεων Zelros (απεικόνιση)

Οκτώβριος 2015 - Διανομή κατωφλίου απόφασης

Δεν υπάρχει ένας μοναδικός τρόπος επιθεώρησης και κατανόησης των προσαρμοσμένων μοντέλων Random Forest. Η ερευνητική ομάδα της Airbnb δημοσίευσε τη δική της προσέγγιση, εστιάζοντας στην κατανομή κατωφλίου αποφάσεων.

Προσέγγιση Airbnb σχετικά με την επεξήγηση του Random Forest

Φεβρουάριος 2016 - LIME

Όπως παρατηρήσατε, οι προηγούμενες προσεγγίσεις επικεντρώθηκαν σε εκείνους που ήταν τότε οι πιο αποτελεσματικοί αλγόριθμοι: Τυχαία δάση.

Όμως, καθώς έχουν προκύψει ισχυρότεροι αλγόριθμοι (νευρωνικά δίκτυα, δέντρα ενίσχυσης της κλίσης, συναρμολόγηση,…), εμφανίστηκε μια νέα γενιά τεχνικών επεξηγήσεων, κατάλληλη για οποιοδήποτε μοντέλο μηχανικής μάθησης - όχι μόνο βάσει δέντρων.

Η πρώτη μέθοδος επεξήγησης αυτού του τύπου δημοσιεύτηκε στην εφημερίδα: "Γιατί πρέπει να σε εμπιστευτώ;": Εξηγώντας τις προβλέψεις οποιουδήποτε ταξινομητή. Εξηγεί τις προβλέψεις οποιουδήποτε ταξινομητή με ερμηνεύσιμο και πιστό τρόπο, μαθαίνοντας ένα ερμηνεύσιμο μοντέλο τοπικά γύρω από την πρόβλεψη.

Αυτή η μέθοδος είναι διαθέσιμη στο πακέτο LIME (Τοπικά Ερμηνεύσιμα Μοντέλα-Αγνωστικές Εξηγήσεις).

Διαθέτει συνεισφορά της πρόβλεψης πολυπλοκότητας ασφαλιστικών απαιτήσεων με βάση το νευρωνικό δίκτυο Zelros (εικόνα)

Ιούνιος 2016 - Ο μύθος των μοντέλων ερμηνείας

Ενώ οι τεχνικές επεξήγησης έχουν πολλαπλασιαστεί, άρχισε να προκύπτει η ανάγκη για καλύτερο προσδιορισμό αυτής της έννοιας.

Τι εννοούμε ερμηνεύοντας ένα μοντέλο μηχανικής μάθησης και γιατί το χρειαζόμαστε; Είναι εμπιστοσύνη στο μοντέλο; Ή προσπαθήστε να βρείτε αιτιώδεις σχέσεις στο αναλυθέν φαινόμενο; Ή να το οπτικοποιήσετε;

Αυτές οι πτυχές καλύπτονται σε βάθος στο άρθρο «Ο Μύθος της Ερμηνευσιμότητας του Μοντέλου».

Μάιος 2017 - SHAP

Όπως βλέπουμε παραπάνω, πολλές μέθοδοι έχουν προταθεί με την πάροδο του χρόνου, για να βοηθήσουν τους χρήστες να ερμηνεύσουν τις προβλέψεις περίπλοκων μοντέλων. Αλλά είναι συχνά ασαφές πώς σχετίζονται αυτές οι μέθοδοι και πότε μια μέθοδος ταιριάζει καλύτερα από μια άλλη.

Το SHAP είναι μια προσπάθεια ενοποίησης έξι προηγούμενων μεθόδων επεξήγησης (όπως το Treeinterpreter, LIME,…) και να κάνουν τα αποτελέσματά τους πιο ισχυρά, συνεπή και ευθυγραμμισμένα με την ανθρώπινη διαίσθηση.

Αυτή είναι πιθανώς η τρέχουσα προηγμένη μέθοδος επεξήγησης. Και υπάρχει διαθέσιμη βιβλιοθήκη Python!

Τιμές SHAP του συστήματος διαχείρισης ασφαλιστικών απαιτήσεων Zelros (απεικόνιση)

2018: Τι ακολουθεί;

Η εξήγηση περίπλοκων μοντέλων μηχανικής μάθησης είναι ένα καυτό ερευνητικό θέμα. Η πρόοδος θα είναι σίγουρη τα επόμενα χρόνια.

Νέα άρθρα δημοσιεύονται κάθε εβδομάδα, σε συνέδρια όπως το KDD ή απευθείας στο arXiv.

Η Tensorflow κυκλοφόρησε αυτόν τον μήνα ένα εργαλείο «τι-εάν» για να ελέγξει οπτικά τα μοντέλα μηχανικής μάθησης και η Kaggle κυκλοφόρησε την περασμένη εβδομάδα μια σειρά από σεμινάρια για τη διαφάνεια του ML.

Ένα ολόκληρο ηλεκτρονικό βιβλίο είναι ακόμη διαθέσιμο στο διαδίκτυο, με πολλές αναφορές.

Με λίγα λόγια, πόσο συναρπαστική στιγμή για την Επεξήγηση της Μηχανικής Μάθησης!

Σας αρέσει αυτό που διαβάζετε; Θέλετε να γίνετε μέλος της τεχνολογίας Zelros ως επιστήμονας δεδομένων, μηχανικός λογισμικού ή μηχανικός λύσεων; Προσλαμβάνουμε!