في هذه الصفحة
حسبً آخر الإحصائيات فإن العالم يُنتج ما يقرب من 2.5 كوينتليون (1 وبجانبها 18 صفراً) بايت(byte) من البيانات كل دقيقة، وهذا الرقم يُعجز الدماغ عن تصورهِ، ولكن! هل كل هذه البيانات ذات فائدة لعلماء ومحللين البيانات؟
– بالطبع لا، يجب أن تمرَ هذه البيانات على عمليات حتى نتمكن من استخراج المفيد منها، وهذا والذي يعرف بتنظيف البيانات (data cleaning)، تلك العملية هي واحدة من أهم العمليات عندما يتعلق الأمر بالعمل مع البيانات؛ حيث تذهب بعض الاحصائيات أن علماء البيانات يقضونُ ما يقارب 70% من أوقات العمل في العمليات الخاصة بتنظيف وإعداد وتجهيز البيانات.
ماذا تعني عملية تنظيف البيانات؟
هي عملية التعرف على الأخطاء الموجودة بالبيانات والعمل على تصحيحها حيث انه دائما ما تكون البيانات الحقيقة (real world data) محتوية على الأخطاء ومحاطة بالغموض، وهي خطوة في غاية الأهمية أثناء تجهيز البيانات؛ حيث تعمل على زيادة دقة البيانات وبالتالي تصبح البيانات يُعتمد عليها بشكل أكبر والذي يؤدي إلى تحقيق الاستفادة القصوى من البيانات الموجودة.
ما الانواع المختلفة لعملية تنظيف البيانات؟
هناك العديد من عمليات تنظيف البيانات كل منها يقوم بدور مختلف وهم كالآتي:
1-التأكد من صحة البيانات Data Validation
تعني هذه العملية بالتأكد من صحة البيانات والتعامل مع الأخطاء كالقيم المفقودة والقيم الخاطئة وتتم هذه الخطوة من خلال عدة طرق مختلفة
2- تحويل البيانات Data Transformation
تشمل هذه العملية تحويل الاشكال المختلفة للبيانات كتحويل الأرقام والنصوص إلى تواريخ، القيم المنطقية (boolean values) إلى أرقام.. إلخ
3- تسوية البيانات Data Normalization
عملية التأكد من أن نفس البيانات تحمل نفس القيم بداخل مصادر أو مخازن البيانات المختلفة وأنها لم تتأثر بعمليات نقل البيانات أو تتغير قيمتها.
4- دمج البيانات Data Integration
عملية جمع البيانات من مصادر مختلفة إلى مصدر واحد
كيف يتم تنفيذ عملية تنظيف البيانات؟
يمكننا تقسيم عملية تنظيف البيانات إلى الأجزاء التالية:
أولاً يتم اكتشاف الأخطاء الموجودة ويمكننا القيام بذلك من خلال تمثيل البيانات (تحويل البيانات اللي رسوم بيانية) أو باستخدام أدوات جاهزة للقيام بذلك (validation tools).
ثانياً بعد اكتشاف الأخطاء يمكننا البدء في العمل على تصحيح تلك الأخطاء ويمكن أن يتم ذلك بالعديد من الطرق المختلفة مثل:
- استبدال القيم
- إزالة القيم
- تصحيح القيم
ثالثاً بمجرد الانتهاء من التعامل مع القيم الخاطئة يجب أن يتم فحص البيانات والاستدلال على أثر التغيير الذي حصلنا عليه من عملية تصحيح البيانات.
رابعاً العمل على تكرار الثلاث خطوات الأولي بالعدد المطلوب خصوصاً مع وجود احتمال ظهور أخطاء جديدة.
ما هي أنواع البيانات التي يجب ملاحظتها والتعامل معها في عملية تنظيف البيانات؟
هناك عدة أنواع من القيم التي قد يؤدي وجودها إلى تأثير على جودة ودقة البيانات
1-القيم المكررة (Duplicate Values)
أثناء تنفيذ عمليات تسجيل أو استخراج البيانات فهناك احتمالية عالية لتكرار نفس القيمة أكثر من مرة، وهذه القيم المكررة تؤثر على جودة البيانات مما قد يؤدي إلى اتخاذ قرارات خاطئة عند الاعتماد على البيانات التي تحتوي علي نسبة عالية من القيم المكررة.
2-القيم الفارغة (NULL values)
هي الخانة التي لا تحمل أي قيمة ولاحظ أن هذه القيمة ليست مساوية للصفر في القيمة وقد تظهر بشكل التالي NULL او N/A ويمكن الرجوع للمصدر الأصلي للبيانات لتحديد هذه القيمة أو استبدالها بقيمة اخرى كالوسيط الحسابي أو المتوسط الحسابي أو حذفها (في حالة ضعف تأثيرها).
3-القيم المتطرفة (Outliers)
هي قيم قليلة العدد ولكن وجودها يحمل تأثير هائل علي البيانات قد يؤثر وجود هذه النوعية من البيانات على جودة اتخاذ القرار، ويمكن التعامل مع هذه القيم بطرق مثل الـtriming (حذف هذه القيم بعد إكتشافها) أو خلق حد أقصى وأدنى للقيم الموجودة في البيانات.
4-القيم الخاطئة ( Erroneous Data )
هذه القيم ليست فارغة مثل ال null values ولكنها قد تحمل قيمًا غير صحيحة أو غير دقيقة أو تم تسجيلها بشكل خاطئ، أمثلة على هذه القيم مثل:
- الأخطاء الإملائية
- وجود قيمة نصية في خانة من المفترض أن تحتوي علي قيمة رقمية أو العكس (format error)
- وجود قيمة بمقياس مختلف مثل وجود قيمة مالية مسجلة بالدولار وباقي القيم مسجلة باليورو
- وجود قيمة غير مرتبطة ببقية القيم نتيجة خطأ في الإدخال كوجود عنوان الشخص مثلا في مكان خانة الاسم
هذه النوعية من الأخطاء هي الأوسع انتشارا في مجال التعامل مع البيانات والتي تحتاج لمهارة عالية للتعامل معها ويمكن تجنب هذا النوع من الأخطاء والتقليل منه من خلال وضع حدود صارمة (constraints) أثناء عملية إدخال البيانات.
5- البيانات غير المرتبطة (Irrelevant Data)
عندما يطلب من محللي وعلماء البيانات حل مشكلة أو دراسة مشكلة موجودة علي أرض الواقع فإن أول خطوة يقومون بيها هي جمع أكبر قدر من البيانات المتعلقة بهذه المشكلة ،وهنا قد يقع البعض منهم في خطأ كإضافة بيانات غير مرتبطة بالمشكلة؛ وبالتالي معالجة وتحليل مثل هذه البيانات سيكون عديم القيمة وسيكون تكلفة إضافية دون قيمة ومضيعة للوقت.
في الختام
عملية تنظيف البيانات أحد أهم العمليات التي يتم تنفيذها على البيانات والتي يجب أن تحصل على اهتمام خاص، نظرًا لكمية الأخطاء التي يمكن تجنبها من خلالها.