المقدمة

التحليل الاستكشافي للبيانات (EDA)، هو بالضبط زي القمع اللي بتدخله البيانات الخام ، االلي بتبقى عشوائية وقد تبدو بدون معنى عشان يطلعلك منها الخلاصة اللي بيظهر لك منها رؤى كتيرة مفيدة للمكان اللي أنت فيه، واللي بيكشف لنا القوى الحقيقية الكامنة وراء البيانات دي.

لو ركزت في كل حاجة حواليك، هتلاقيها عبارة عن بيانات كتيرة منها المفهوم ومنها اللي مش مفهوم وده الجزء الأكبر، لأنه مبيبقاش متاح ليك تحليلها واستكشافها بالعين المجردة. لكن في نفس الوقت لازم تفهمها وتستكشفها بطريقة ما. وفي طريقك لفهمها هتقابل المحطة الأهم وهي محطة التحليل الاستكشافي للبيانات (EDA).

مراحل تحليل البيانات الاستكشافي

ليه الـ EDA خطوة مهمة؟

قبل ما ناخد جولة في المحطة هوضحلك ليه الـ EDA خطوة مهمة؟

الـ EDA بيساعدك على:

فهم خصائص البيانات: بتقدر تشوف العلاقات بين المتغيرات المختلفة (Correlation) وتفهم الأنماط اللي بينها وكمان تعرف الحاجات اللي بتأثر بشكل كبير على البيانات عندك والحاجات اللي تأثيرها أقل.

اكتشاف القيم الغريبة والمفقودة: ممكن تلاقي في البيانات قيم مش مألوفة أو مش متناسقة مع باقي البيانات (Outliers) أو مثلًا قيم مش محددة ومفقودة (Missing values)، يعني مثلًا قيمة عالية جدًا للمبيعات عندك أو قيمة مش مكتوبة خالص. هنا بتكتشف إن في حاجة غلط ولازم بترجع تشوف سبب الغلط جاي منين وتصلحه.

تحضير البيانات للخطوات المتقدمة: بعد ما استكشفت بياناتك وصلحت أخطائها، بتحتاج تدخلها في تحليل أعمق عشان تفهم كل تفصيلة فيه، وكمان ممكن تدخلها على نماذج للتنبؤ بالمستقبل (Machine Learning Models) واللي كفاءتها بتعتمد على جودة البيانات اللي بتدخلها.


مراحل الـ EDA

من هنا هنبدأ جولتنا بمراحل الـ EDA:

هنا بيأتي الجزء الأكثر متعة واللي بتقدر فيه تشوف البيانات بتاعتك في هيئة أرقام مُبسطة وفي شكل رسومات بيانية واضحة.

مراحل الـ EDA

1- الطرق الإحصائية (Statistical methods)

  • المتوسط (Mean): بنعرف منه القيم اللي بتمثل النصيب الأكبر من البيانات.
  • الوسيط (Median): وهو القيمة اللي بتقسم البيانات لنصين وبيوضح توزيع البيانات حوالين القيمة دي.
  • الانحراف المعياري (Standard Deviation): بيقولك البيانات متباعدة عن المتوسط بمقدار قد إيه.

وغيرها كتير من الطرق والمصطلحات الوصفية.

2- استخدام المخططات البيانية والرسومات (Graphs and Charts)

هنا بنعرض الداتا والعلاقات اللي بينها في رسومات مُلونة بنقدر نستكشف منها الداتا بمجرد النظر، ده عن طريق عدد من المخططات اللي في زيادة وتطوير مستمر دايمًا، منها:

  • الـ Histograms: بتُظهر توزيع البيانات وبتقسمها لفئات وبتبين عدد القيم في كل فئة، حاجة زي كده بتساعدنا نقسم الداتا لفئات ونتعامل مع كل فئة على حدة.
  • الـ Box Plots: ودي بتقسم البيانات لتلت أجزاء، ربع الداتا الأول، قيم في النص، الربع التالت، وده طبعًا بيعرضلنا أماكن تركيز الداتا عشان نعرف القيم البعيدة والغريبة عنها زي ما عرفنا في أول المقال.
  • الـ Heatmaps: بتبين القيم في مصفوفة من الألوان وتدرجات ليها، وده بيورينا الأنماط اللي بين الداتا والعلاقات بينها من تدرجات ألوان المصفوفة.
  • الـ Line Graphs: ده بيوضح تغير البيانات على فترات زمنية متتابعة وبيوضح الأوقات اللي بيكون فيها ارتفاع أو انخفاض مفاجئي وبيوضح التريندات اللي في الداتا.

وغيرها الكثير والكثير من الرسومات، واللي من كتر فعاليتها وتوضيحها للبيانات بشكل سهل، اتعملها برامج خاصة بيها زي Power BI و Tableau، ممكن نستفيض في شرحهم بعدين.


إيه هي الأدوات اللي بنستخدمها في رحلتنا الاستكشافية؟

  • الـ Python: بايثون من أهم الأدوات المستخدمة في الـ EDA وأقواها لأنها بتوفر مكتبات وتولز متقدمة بتعمل مهام كتير في أسطر كود بسيطة. من أهم المكتبات: Pandas، Matplotlib، Numpy، Seaborn، وكمان مكتبات مشهورة في بناء نماذج الذكاء الاصطناعي زي Scikit-learn، TensorFlow.
  • الـ R: ودي لغة إحصائية بيتم استخدامها في الأوساط الأكاديمية والبحثية بشكل أكبر، موجود فيها مكتبة رسوم بيانية (ggplot2) بتوفر أدوات مرنة لبناء الخرائط والرسومات.

كل نوع من الأدوات دي ليها مزايا خاصة بيها واللي بتناسب مستويات مختلفة من التحليل، يعني Pandas و Seaborn بنستخدمهم مع التحليلات البسيطة والبدء في فهم البيانات، وعلى الجانب الآخر بنستخدم TensorFlow و PyTorch مع البيانات الأكثر تعقيدًا زي الصور والفيديو.


مصادر وكتب للقراءة

بكده نكون عرفنا الخطوة الأهم في بداية فهم وتحليلات البيانات، وطبعًا المعلومات مش هتقف لحد هنا. تقدر تقرأ وتعرف أكتر في المصادر دي:

  • "Hands-On Exploratory Data Analysis with Python" by Suresh Kumar Mukhiya and Usman Ahmed.
  • "R for Data Science" by Hadley Wickham and Garrett Grolemund.
  • "Storytelling with Data" by Cole Nussbaumer Knaflic."