עושים סדר ב-DATA – מהו DATA CLEANING?

ניקוי נתונים או DATA CLEANING הוא תהליך של זיהוי והסרה (או תיקון) של רשומות לא מדויקות ממערך נתונים, טבלה או מסד נתונים. תהליך זה אינו תהליך שמטרתו "צמצום נתונים" אלא פעולה שמטרתה היא שמירה על מהימנות הנתונים.

תהליך נקיון הנתונים נמצא באזור שבין הבנת הBUSINESS לבין עיצוב המידע הטבלאי. הוא מתייחס לזיהוי חלקם לא גמורים, לא מדויקים או לא רלוונטים, המייצרים סיטואציה של מידע לא אמין, מידע "מלוכלך" שיושב בבסיס הנתונים ושימוש בו עלול להוביל לקבלת החלטות עסקיות שגויות. פעולות הניקוי מהוות חלק חיוני בתהליך בחינת אמינות הנתונים ולהן יוקדש מרבית הזמן והמשאבים בתוך הליך זה.

לביצוע אנליזה ותחקור של ניקיון ה – DATA אפשר לגשת באמצעות טכניקות שונות כגון: סוגי המידע  (DATA TYPES), תכונות קבועות (Constant features), שורות כפולות (Duplicated rows),

תכונות כפולות (Duplicated features), ערכים מחוץ לטווח (Values out of range) וע"י כך להגיע לרוב הפערים במידע הארגוני בצורה יסודית ושיטתית. חלק מהעבודה עם רשומות המידע ניתן לתחקר באמצעות כלים מסורתיים לניתוח, לדוגמה, R או Python. הפערים שזוהו בתהליך עשויים להיגרם בעיקרם על ידי טעויות כניסה של משתמשים, על ידי שחיתות באחסון או בהעברת המידע.

לאחר תהליך הניקוי, מערך הנתונים צריך להיות אחיד ואמין תוך כדי שמירת הקשר הנכון עם שאר בסיסי הנתונים במבנה הטבלאי שלהם בארגון.