Πώς να το κάνετε

Πώς να το κάνετε

September 29, 2022 0 Von admin

Προεπεξεργασία δεδομένων στη μηχανική μάθηση: Πώς να το πετύχετε

Ας ξεκινήσουμε αυτήν την ανάρτηση με μια ερώτηση – Είναι αρκετό για την επιχείρησή σας να συλλέγει απλώς δεδομένα με στόχο την ανάλυσή τους; Όπως λένε, υπάρχει πολλή ολίσθηση ανάμεσα στο φλιτζάνι και το χείλος. Το ίδιο ισχύει και με την ανάλυση δεδομένων.

Κατά την ανάλυση δεδομένων, πρέπει να βεβαιωθείτε ότι δεν υπάρχουν σφάλματα, ασυνέπειες, διπλότυπα ή τιμές που λείπουν. Όλα αυτά μπορεί διαφορετικά να δώσουν μια εσφαλμένη εντύπωση για τα συνολικά στατιστικά στοιχεία των δεδομένων. Οι ασυνέπειες και τα ακραία σημεία μπορούν επίσης να διαταράξουν τη μάθηση του μοντέλου, με αποτέλεσμα ανακριβείς προβλέψεις.

Έτσι, μεταξύ της συλλογής πληροφοριών (δεδομένων) και της ανάλυσής τους, υπάρχουν μερικά ακόμη βήματα που πρέπει να γίνουν (επεξεργασία) προς όφελος της ακρίβειας και της απόκτησης των καλύτερων πρακτικών πληροφοριών. Πολύ περισσότερο όταν πρόκειται να ζητήσετε από μια μηχανή που λειτουργεί με αλγόριθμο να το κάνει.

Η επεξεργασία δεδομένων αντιπροσωπεύει ολόκληρη τη γκάμα των πραγμάτων: ξεκινώντας από τη συλλογή δεδομένων (εισαγωγή), τη μετατροπή τους σε χρήσιμη πληροφορία, μέχρι την πραγματική επεξεργασία από τον αλγόριθμο μηχανικής μάθησης.

Πού και πώς ξεκινούν όλα;

Τα δεδομένα έρχονται σε όλους τους τύπους και τις μορφές. Τη διαδικασία ξεκινά με τη λήψη των ακατέργαστων δεδομένων και τη μετατροπή τους τελικά σε μια πιο κατανοητή μορφή για το μηχάνημα, την οποία οι εργαζόμενοι μπορούν εύκολα να ερμηνεύσουν σε μια επιχείρηση (έξοδος).

Το πρώτο βήμα σε αυτή τη διαδικασία είναι η προεπεξεργασία δεδομένων. Είναι μια τεχνική που χρησιμοποιείται επίσης για τη μετατροπή των αρχικών δεδομένων σε τυποποιημένη μορφή. Τα „θορυβώδη“ δεδομένα πρέπει να καθαριστούν και να τυποποιηθούν για την επόμενη πορεία δράσης. Ο στόχος είναι να διατεθούν καθαρά και μορφοποιημένα δεδομένα για την κατασκευή μοντέλων AI/ML. Οι λέξεις „Προεπεξεργασία“ και „Επεξεργασία“ χρησιμοποιούνται συχνά εναλλακτικά, αλλά υπάρχει μια λεπτή γραμμή που τις χωρίζει. Η προεπεξεργασία δεδομένων δεν είναι παρά ένα υποσύνολο της συνολικής τεχνικής επεξεργασίας δεδομένων.

Εάν δεν εφαρμόσετε τις σωστές τεχνικές επεξεργασίας δεδομένων, το μοντέλο σας δεν θα μπορεί να αποδώσει ουσιαστικές ή ακριβείς πληροφορίες από τα αναλυτικά στοιχεία δεδομένων σας.

Για αυτό το άρθρο, θα περιοριστούμε στο θέμα της προεπεξεργασίας δεδομένων. Υπάρχουν πολλές μέθοδοι προεπεξεργασίας δεδομένων και βήματα για να γίνει αυτό, αλλά δεν είναι όλα αποτελεσματικά.

Στην επόμενη ανάρτηση, θα δούμε τη συνολική πτυχή της επεξεργασίας δεδομένων.

Γιατί είναι σημαντική η προεπεξεργασία δεδομένων στην επιχειρηματική ευφυΐα;

Τι είναι πραγματικά η προετοιμασία δεδομένων;

Δεν θα ήταν υπερβολή να πούμε ότι η προεπεξεργασία/προετοιμασία δεδομένων είναι ένα κρίσιμο και «απαραίτητο» βήμα σε οποιοδήποτε έργο μηχανικής μάθησης. Η ανάλυση και η ερμηνεία δεδομένων είναι ουσιαστικό μέρος σχεδόν οποιουδήποτε τομέα μελέτης. Όταν εργάζεστε με δεδομένα, είναι σημαντικό να κατανοήσετε πώς να τα προετοιμάσετε σωστά για ανάλυση. Αυτό μπορεί να περιλαμβάνει διάφορες εργασίες, συμπεριλαμβανομένου του καθαρισμού, της μετατροπής και της συγκέντρωσης.

Η προεπεξεργασία είναι σημαντική γιατί σας βοηθά να εστιάσετε την ανάλυσή σας. Χωρίς αυτό, μπορεί να χάσετε τα μάτια σας για το τι πραγματικά προσπαθείτε να μάθετε από τα δεδομένα σας. Στα περισσότερα λειτουργικά περιβάλλοντα, η προεπεξεργασία θα εκτελείται ως εργασία Extract Transfer Load (ETL) για ομαδική επεξεργασία ή, στην περίπτωση «ζωντανών» δεδομένων, θα μπορούσε να είναι μέρος της διαδικασίας ροής.

Στη μηχανική μάθηση, η προεπεξεργασία περιλαμβάνει τη μετατροπή ενός ακατέργαστου δεδομένων ώστε το μοντέλο να μπορεί να το χρησιμοποιήσει. Αυτό είναι απαραίτητο για τη μείωση της διάστασης, τον προσδιορισμό των σχετικών δεδομένων και την αύξηση της απόδοσης ορισμένων μοντέλων μηχανικής εκμάθησης. Περιλαμβάνει μετασχηματισμό ή κωδικοποίηση δεδομένων έτσι ώστε ένας υπολογιστής να μπορεί να τα αναλύσει γρήγορα. Επιπλέον, οι προβλέψεις που γίνονται από ένα μοντέλο πρέπει να είναι ακριβείς και ακριβείς, επειδή ο αλγόριθμος θα πρέπει να μπορεί να ερμηνεύει εύκολα τα δεδομένα.

Ακολουθεί μια αναλογία που θα σας βοηθήσει να καταλάβετε καλύτερα: Φανταστείτε ότι είστε ασθενής που προσβλήθηκε πρόσφατα από έναν ιό. Ο γιατρός σας προσπαθεί να καταλάβει τι συμβαίνει με εσάς, προφανώς με βάση τα συμπτώματα που εμφανίζετε. Προτού όμως συστήσει μια σειρά θεραπείας, ο γιατρός θέλει επίσης να μάθει το ιατρικό σας ιστορικό, ίσως το ιστορικό ταξιδιού σας και άλλες σχετικές πληροφορίες όπως η ηλικία, κ.λπ. (εισροές). Όλα με τον σωστό, αναγνωρισμένο τρόπο (κατάλληλη μορφή). Εάν είστε ασαφείς στην περιγραφή, ας πούμε, των συμπτωμάτων σας, μπορεί να είναι πρόβλημα στην τελική διάγνωση. Ακόμη πιο σημαντικό είναι ότι πριν από τη διάγνωση, ο γιατρός πρέπει επίσης να γνωρίζει όλα τα πιθανά συμπτώματα και τη σοβαρότητα της νόσου. Αυτό είναι απαραίτητο για να το συγκρίνετε με τα συμπτώματα που εμφανίζετε τώρα. Διαφορετικά, η διάγνωση θα μπορούσε να περιοριστεί, επηρεάζοντας έτσι αρνητικά τη θεραπεία (απόδοση).

Η επεξεργασία δεδομένων μοιάζει με την αρχική ροή πληροφοριών, όπως συμπτώματα κ.λπ. Βοηθά στη διάκριση μεταξύ σχετικών και άσχετων πληροφοριών και εξαλείφει τα ανεπιθύμητα. Μπορεί να χρησιμοποιηθεί για να φιλτράρει ασήμαντα στοιχεία ή πληροφορίες όπως τυπογραφικά λάθη ή ανεπιθύμητα δεκαδικά ψηφία που δεν έχουν σημασία για την ανάλυση. Επιπλέον, μπορεί επίσης να χρησιμοποιηθεί για τη μετατροπή ενός συνόλου δεδομένων σε ένα άλλο, το οποίο είναι συχνά απαραίτητο για ανάλυση. Ορισμένες κοινές εργασίες που περιλαμβάνουν προεπεξεργασία δεδομένων που πρέπει να αναληφθούν, αλλά περισσότερο σχετικά αργότερα.

Έτσι, τώρα ξέρετε ότι η προεπεξεργασία είναι μέρος της ευρύτερης τεχνικής επεξεργασίας δεδομένων. ένα από τα πρώτα βήματα από τη στιγμή που συλλέγονται τα δεδομένα μέχρι την ανάλυσή τους. Περιλαμβάνει επίσης τυποποίηση δεδομένων και κανονικοποίηση δεδομένων. Ενώ όλοι γνωρίζουμε τι σημαίνει τυποποίηση, η «κανονικοποίηση» αναφέρεται σε ένα ευρύτερο σύνολο διαδικασιών για την εξάλειψη σφαλμάτων. Οι τεχνικές κανονικοποίησης βοηθούν να διασφαλιστεί ότι ο πίνακας έχει δεδομένα που σχετίζονται άμεσα με το πρωτεύον κλειδί και κάθε πεδίο δεδομένων περιέχει μόνο ένα στοιχείο δεδομένων. Βοηθά στη διαγραφή διπλών και ανεπιθύμητων δεδομένων.

Ποια είναι τα κύρια βήματα της προεπεξεργασίας δεδομένων;

Τα κύρια βήματα της Προεπεξεργασίας Δεδομένων είναι:

  1. Απόκτηση δεδομένων
  2. Κανονικοποίηση/Καθαρισμός δεδομένων
  3. Μορφοποίηση δεδομένων
  4. Δειγματοληψία Δεδομένων
  5. Κλιμάκωση δεδομένων

Η διαχείριση δεδομένων είναι συχνά το πιο χρονοβόρο μέρος της επιστήμης δεδομένων. Τόσο πολύ που σε πολλές επιχειρήσεις, οι αναλυτές δεδομένων ξοδεύουν μεγάλο μέρος του πολύτιμου χρόνου τους στην προετοιμασία των δεδομένων αντί να αντλούν πληροφορίες από αυτά, που είναι το κύριο καθήκον.

Η προεπεξεργασία δεδομένων είναι όπου αρχίζουμε να «προετοιμάζουμε» τα δεδομένα για τον αλγόριθμο μηχανικής εκμάθησης.

Υπάρχουν μερικοί διαφορετικοί τύποι προεπεξεργασίας που μπορούμε να κάνουμε. Μπορούμε, για παράδειγμα, να φιλτράρουμε τα δεδομένα για να αφαιρέσουμε τυχόν μη έγκυρες καταχωρήσεις. Μπορούμε επίσης να μειώσουμε το μέγεθος του συνόλου δεδομένων για να διευκολύνουμε την επεξεργασία του. Μπορούμε επίσης να κανονικοποιήσουμε τα δεδομένα για να τα κάνουμε πιο συνεπή.

Εδώ είναι μερικά από τα κύρια βήματα που εμπλέκονται στην προεπεξεργασία δεδομένων:

Βήμα 1: Απόκτηση δεδομένων

Αυτό είναι ίσως το πιο σημαντικό βήμα στη διαδικασία προεπεξεργασίας. Τα δεδομένα με τα οποία θα εργαστείτε είναι σχεδόν βέβαιο ότι θα προέρχονται από κάπου. Στην περίπτωση της μηχανικής εκμάθησης, είναι συνήθως μια εφαρμογή υπολογιστικών φύλλων (Excel, Google Sheets, κ.λπ.) που χειρίζεται κάποιος άλλος. Στην καλύτερη περίπτωση, είναι ένα εργαλείο όπως το R ή η Python που μπορείτε να χρησιμοποιήσετε για να αρπάξετε τα δεδομένα και να εκτελέσετε μερικούς βασικούς χειρισμούς εύκολα.

Υπάρχουν μερικά πράγματα που πρέπει να σημειωθούν εδώ. Πρώτον, τα δεδομένα με τα οποία θα εργάζεστε ενδέχεται να είναι σε μορφή που δεν μπορεί να χρησιμοποιηθεί άμεσα από τον αλγόριθμο μηχανικής εκμάθησης. Για παράδειγμα, εάν προσπαθείτε να φορτώσετε δεδομένα από ένα αρχείο SPSS, θα χρειαστεί να κάνετε κάποιο καθαρισμό για να μεταφέρετε τα δεδομένα σε έγκυρη μορφή. Δεύτερον, τα εργαλεία που αναφέραμε μπορούν επίσης να καθαρίσουν αρκετά, αλλά μερικές φορές είναι πιο σαφής η επεξεργασία δεδομένων που αναζητάτε.

Πριν κάνετε το επόμενο βήμα, θα χρειαστεί να εισαγάγετε όλες τις βιβλιοθήκες όπως η Python για τις εργασίες προεπεξεργασίας. Μπορείτε επίσης να χρησιμοποιήσετε τη γλώσσα προγραμματισμού Python και την ενσωματωμένη βιβλιοθήκη δεδομένων της για να εκτελέσετε πιο εξελιγμένη επεξεργασία δεδομένων.

Οι τρεις βασικές βιβλιοθήκες Python για αυτόν τον σκοπό είναι οι Pandas, NumPy και Matplotlib για να χειρίζονται εύκολα τα δεδομένα σας με διάφορους τρόπους.

Βήμα 2: Κανονικοποίηση/Καθαρισμός δεδομένων

Εδώ, διαγράφετε τα ανεπιθύμητα δεδομένα και διορθώνετε τις περιπτώσεις που λείπουν δεδομένα αφαιρώντας τα. Ο όρος „καθαρισμός δεδομένων“ είναι λίγο παραπλανητικός γιατί ακούγεται σαν να προσπαθούμε απλώς να διορθώσουμε τα δεδομένα. Στην πραγματικότητα, προσπαθούμε να εξαλείψουμε τα λάθη και τις ασυνέπειες, ώστε τα δεδομένα μας να είναι όσο το δυνατόν συνεπή.

Αυτό σημαίνει την κατάργηση τυχόν μη έγκυρων ή εσφαλμένων τιμών. Υπάρχουν πολλά πράγματα που μπορούμε να κάνουμε εδώ. Μπορούμε να βεβαιωθούμε ότι κάθε στοιχείο δεδομένων είναι μοναδικό και να τυποποιήσουμε διάφορες ιδιότητες των δεδομένων, όπως τη μονάδα μέτρησής τους. Βεβαιωθείτε ότι κάθε σημείο δεδομένων έχει μια μοναδικά καθορισμένη τιμή. Αυτό σημαίνει ότι δεν υπάρχουν διπλότυπα και δεν λείπουν τιμές.

Βήμα 3: Μορφοποίηση δεδομένων

Η μορφοποίηση δεδομένων γίνεται μόλις έχετε καθαρά δεδομένα. Βοηθά στη μετατροπή των δεδομένων σε μια πιο χρησιμοποιήσιμη μορφή από αλγόριθμους μηχανικής εκμάθησης. Τα δεδομένα μπορούν να βρεθούν σε διάφορες μορφές, συμπεριλαμβανομένων των ιδιόκτητων μορφών και των μορφών παρκέ, μεταξύ άλλων. Τα μοντέλα μάθησης μπορούν να λειτουργήσουν αποτελεσματικά με δεδομένα όταν είναι κατάλληλα μορφοποιημένα.

Μπορούμε να χρησιμοποιήσουμε πολλές διαφορετικές μορφές και η καθεμία έχει τα δικά της οφέλη.

Μια δημοφιλής επιλογή αυτές τις μέρες είναι με την επωνυμία TensorFlow ή TFRecords, επιτρέποντάς μας να δημιουργήσουμε ένα ενοποιημένο σύνολο εγγραφών εκπαίδευσης με ετικέτα σε διαφορετικά μοντέλα εντός του MLflow για ευέλικτο έλεγχο μοντέλων.

Βήμα 4: Δειγματοληψία δεδομένων

Πρέπει να διασφαλίσουμε ότι τα δείγματα δεδομένων αντιπροσωπεύουν τον πληθυσμό από τον οποίο προήλθαν, γιατί εδώ μπορεί να τεθεί το παιχνίδι μεροληψίας και διακύμανσης. Μεροληψία είναι η τάση τα δεδομένα να εμφανίζουν μοτίβα που δεν είναι αντιπροσωπευτικά του πληθυσμού από τον οποίο προήλθαν.

Ένα από τα πιο σημαντικά πράγματα που μπορείτε να κάνετε όταν εργάζεστε με δεδομένα είναι να βεβαιωθείτε ότι τα δειγματίζετε σωστά. Αυτό σημαίνει ότι παίρνετε ένα αντιπροσωπευτικό δείγμα των δεδομένων αντί να συλλέγετε απλώς όσα δεδομένα είναι διαθέσιμα. Αντί να επιλέξετε ολόκληρο το σύνολο δεδομένων, μπορείτε να χρησιμοποιήσετε ένα μικρότερο δείγμα του συνόλου, εξοικονομώντας έτσι χρόνο και χώρο στη μνήμη. Αυτό είναι επίσης σημαντικό γιατί διασφαλίζει ότι λαμβάνετε μια δίκαιη αναπαράσταση δεδομένων. Θα λάβετε μεροληπτικά αποτελέσματα εάν κάνετε υπερβολικά μεγάλη δειγματοληψία προς μία κατεύθυνση.

Επίσης, πρέπει να χωρίσετε το σύνολο δεδομένων σε δύο – για σκοπούς εκπαίδευσης και δοκιμής. Τα εκπαιδευτικά σύνολα είναι υποσύνολα συνόλων δεδομένων που χρησιμοποιούνται για την εκπαίδευση μοντέλων μηχανικής εκμάθησης. Η έξοδος είναι ήδη γνωστή σε εσάς. Αντίθετα, ένα δοκιμαστικό σύνολο είναι ένα υποσύνολο του συνόλου δεδομένων που χρησιμοποιείται για τη δοκιμή του μοντέλου μηχανικής εκμάθησης. Για την πρόβλεψη των αποτελεσμάτων, το μοντέλο ML χρησιμοποιεί το σύνολο δοκιμών.

Μια αναλογία 70:30 ή 80:20 χρησιμοποιείται συνήθως για το σύνολο δεδομένων, δηλαδή παίρνετε είτε το 70% είτε το 80% των δεδομένων για την εκπαίδευση του μοντέλου, ενώ αφήνετε έξω το υπόλοιπο 30% ή 20% για δοκιμή. Αυτό που καθοδηγεί αυτήν την απόφαση είναι η μορφή και το μέγεθος του εν λόγω συνόλου δεδομένων.

Βήμα 5: Κλιμάκωση δεδομένων

Η τυποποίηση ανεξάρτητων μεταβλητών εντός μιας περιοχής ονομάζεται κλίμακα δεδομένων. Για να το θέσω αλλιώς, η κλιμάκωση χαρακτηριστικών περιορίζει το εύρος των μεταβλητών, ώστε να μπορούν να συγκριθούν δίκαια.

Η τυποποίηση των χαρακτηριστικών ενός συνόλου δεδομένων μειώνει τη μεταβλητότητα μέσα σε ένα σύνολο δεδομένων, έτσι ώστε να μπορεί να συγκριθεί και να αναλυθεί πιο εύκολα. Όπως 0-100 ή 0-1. Βοηθά να διασφαλίσετε ότι τα δεδομένα που έχετε λάβει έχουν παρόμοιες ιδιότητες.

Υπάρχουν διάφοροι τρόποι με τους οποίους μπορούμε να τυποποιήσουμε τα δεδομένα. Για παράδειγμα, μπορούμε να χρησιμοποιήσουμε τυπική απόκλιση για να μειώσουμε τη διακύμανση μέσα σε ένα σύνολο δεδομένων.

Μόλις ολοκληρωθούν τα βήματα προεπεξεργασίας, πρέπει να αναλάβετε τα υπόλοιπα βήματα επεξεργασίας δεδομένων, όπως μετασχηματισμό δεδομένων, πριν φορτώσετε τα δεδομένα στον αλγόριθμο μηχανικής εκμάθησης και εκπαιδεύσετε τον αλγόριθμο. Αυτή είναι, ουσιαστικά, μια διαδικασία «διδασκαλίας» στον αλγόριθμο μηχανικής μάθησης πώς να αναγνωρίζει και να κατανοεί τα μοτίβα στα δεδομένα μας.

Συνολικά, οι αλγόριθμοι μηχανικής μάθησης είναι δύο τύπων:

  1. Αλγόριθμοι εποπτευόμενης μάθησης
  2. Αλγόριθμοι μάθησης χωρίς επίβλεψη

Οι εποπτευόμενοι αλγόριθμοι μάθησης μαθαίνουν από ένα σύνολο δεδομένων εκπαίδευσης. Τα δεδομένα εκπαίδευσης συνήθως συνδυάζονται με αντίστοιχα δεδομένα ανατροφοδότησης, τα οποία βοηθούν τον αλγόριθμο μηχανικής εκμάθησης να μάθει τις σωστές συσχετίσεις μεταξύ των διαφορετικών χαρακτηριστικών των δεδομένων.

Οι αλγόριθμοι εκμάθησης χωρίς επίβλεψη δεν απαιτούν αντίστοιχα δεδομένα ανατροφοδότησης. Αντίθετα, έχουν σχεδιαστεί για να μαθαίνουν από τα δεδομένα μόνοι τους.

Τούτου λεχθέντος σχετικά με την προεπεξεργασία δεδομένων, στο Μέρος 2, θα εξετάσουμε τη συνολική πτυχή της επεξεργασίας δεδομένων.