The Exploratory Data Analysis (EDA) Magic Funnel

لو ركزت في كل حاجة حواليك، هتلاقيها عبارة عن بيانات كتيرة منها المفهوم ومنها اللي مش مفهوم وده الجزء الأكبر، لأنه مبيبقاش متاح ليك تحليلها واستكشافها بالعين المجردة. لكن في نفس الوقت لازم تفهمها وتستكشفها بطريقة ما.
The Exploratory Data Analysis (EDA) Magic Funnel
The Exploratory Data Analysis (EDA) Magic Funnel

في هذه الصفحة

المقدمة

التحليل الاستكشافي للبيانات (EDA)، هو بالضبط زي القمع اللي بتدخله البيانات الخام ، االلي بتبقى عشوائية وقد تبدو بدون معنى عشان يطلعلك منها الخلاصة اللي بيظهر لك منها رؤى كتيرة مفيدة للمكان اللي أنت فيه، واللي بيكشف لنا القوى الحقيقية الكامنة وراء البيانات دي.

لو ركزت في كل حاجة حواليك، هتلاقيها عبارة عن بيانات كتيرة منها المفهوم ومنها اللي مش مفهوم وده الجزء الأكبر، لأنه مبيبقاش متاح ليك تحليلها واستكشافها بالعين المجردة. لكن في نفس الوقت لازم تفهمها وتستكشفها بطريقة ما. وفي طريقك لفهمها هتقابل المحطة الأهم وهي محطة التحليل الاستكشافي للبيانات (EDA).

مراحل تحليل البيانات الاستكشافي

ليه الـ EDA خطوة مهمة؟

قبل ما ناخد جولة في المحطة هوضحلك ليه الـ EDA خطوة مهمة؟

الـ EDA بيساعدك على:

فهم خصائص البيانات: بتقدر تشوف العلاقات بين المتغيرات المختلفة (Correlation) وتفهم الأنماط اللي بينها وكمان تعرف الحاجات اللي بتأثر بشكل كبير على البيانات عندك والحاجات اللي تأثيرها أقل.

اكتشاف القيم الغريبة والمفقودة: ممكن تلاقي في البيانات قيم مش مألوفة أو مش متناسقة مع باقي البيانات (Outliers) أو مثلًا قيم مش محددة ومفقودة (Missing values)، يعني مثلًا قيمة عالية جدًا للمبيعات عندك أو قيمة مش مكتوبة خالص. هنا بتكتشف إن في حاجة غلط ولازم بترجع تشوف سبب الغلط جاي منين وتصلحه.

تحضير البيانات للخطوات المتقدمة: بعد ما استكشفت بياناتك وصلحت أخطائها، بتحتاج تدخلها في تحليل أعمق عشان تفهم كل تفصيلة فيه، وكمان ممكن تدخلها على نماذج للتنبؤ بالمستقبل (Machine Learning Models) واللي كفاءتها بتعتمد على جودة البيانات اللي بتدخلها.


مراحل الـ EDA

من هنا هنبدأ جولتنا بمراحل الـ EDA:

هنا بيأتي الجزء الأكثر متعة واللي بتقدر فيه تشوف البيانات بتاعتك في هيئة أرقام مُبسطة وفي شكل رسومات بيانية واضحة.

مراحل الـ EDA

1- الطرق الإحصائية (Statistical methods)

  • المتوسط (Mean): بنعرف منه القيم اللي بتمثل النصيب الأكبر من البيانات.
  • الوسيط (Median): وهو القيمة اللي بتقسم البيانات لنصين وبيوضح توزيع البيانات حوالين القيمة دي.
  • الانحراف المعياري (Standard Deviation): بيقولك البيانات متباعدة عن المتوسط بمقدار قد إيه.

وغيرها كتير من الطرق والمصطلحات الوصفية.

2- استخدام المخططات البيانية والرسومات (Graphs and Charts)

هنا بنعرض الداتا والعلاقات اللي بينها في رسومات مُلونة بنقدر نستكشف منها الداتا بمجرد النظر، ده عن طريق عدد من المخططات اللي في زيادة وتطوير مستمر دايمًا، منها:

  • الـ Histograms: بتُظهر توزيع البيانات وبتقسمها لفئات وبتبين عدد القيم في كل فئة، حاجة زي كده بتساعدنا نقسم الداتا لفئات ونتعامل مع كل فئة على حدة.
  • الـ Box Plots: ودي بتقسم البيانات لتلت أجزاء، ربع الداتا الأول، قيم في النص، الربع التالت، وده طبعًا بيعرضلنا أماكن تركيز الداتا عشان نعرف القيم البعيدة والغريبة عنها زي ما عرفنا في أول المقال.
  • الـ Heatmaps: بتبين القيم في مصفوفة من الألوان وتدرجات ليها، وده بيورينا الأنماط اللي بين الداتا والعلاقات بينها من تدرجات ألوان المصفوفة.
  • الـ Line Graphs: ده بيوضح تغير البيانات على فترات زمنية متتابعة وبيوضح الأوقات اللي بيكون فيها ارتفاع أو انخفاض مفاجئي وبيوضح التريندات اللي في الداتا.

وغيرها الكثير والكثير من الرسومات، واللي من كتر فعاليتها وتوضيحها للبيانات بشكل سهل، اتعملها برامج خاصة بيها زي Power BI و Tableau، ممكن نستفيض في شرحهم بعدين.


تقدروا دلوقتي تشتركوا في النشرة الأسبوعية لاقرأ-تِك بشكل مجاني تمامًا عشان يجيلكوا كل جديد بشكل أسبوعي فيما يخص مواضيع متنوعة وبشروحات بسيطة وسهلة وبجودة عالية 🚀

النشرة هيكون ليها شكل جديد ومختلف عن شكلها القديم وهنحاول انها تكون مميزة ومختلفة وخليط بين المحتوى الأساسي اللي بينزل ومفاجآت تانية كتير 🎉

Eqraatech Newsletter | Eqraatech - اقرأ-تِك | Substack
محتوى تقني متميز في مختلف مجالات هندسة البرمجيات باللغة العربية عن طريق تبسيط المفاهيم البرمجية المعقدة بشكل سلس وباستخدام صور توضيحية مذهلة. Click to read Eqraatech Newsletter, a Substack publication with hundreds of subscribers.

بفضل الله قمنا بإطلاق قناة اقرأ-تِك على التليجرام مجانًا للجميع 🚀

آملين بده اننا نفتح باب تاني لتحقيق رؤيتنا نحو إثراء المحتوى التقني باللغة العربية ، ومساعدة لكل متابعينا في انهم يوصلوا لجميع أخبار اقرأ-تِك من حيث المقالات ومحتوى ورقة وقلم والنشرة الأسبوعية وكل جديد بطريقة سريعة وسهلة

مستنينكوا تنورونا , وده رابط القناة 👇

https://t.me/eqraatechcom


إيه هي الأدوات اللي بنستخدمها في رحلتنا الاستكشافية؟

  • الـ Python: بايثون من أهم الأدوات المستخدمة في الـ EDA وأقواها لأنها بتوفر مكتبات وتولز متقدمة بتعمل مهام كتير في أسطر كود بسيطة. من أهم المكتبات: Pandas، Matplotlib، Numpy، Seaborn، وكمان مكتبات مشهورة في بناء نماذج الذكاء الاصطناعي زي Scikit-learn، TensorFlow.
  • الـ R: ودي لغة إحصائية بيتم استخدامها في الأوساط الأكاديمية والبحثية بشكل أكبر، موجود فيها مكتبة رسوم بيانية (ggplot2) بتوفر أدوات مرنة لبناء الخرائط والرسومات.

كل نوع من الأدوات دي ليها مزايا خاصة بيها واللي بتناسب مستويات مختلفة من التحليل، يعني Pandas و Seaborn بنستخدمهم مع التحليلات البسيطة والبدء في فهم البيانات، وعلى الجانب الآخر بنستخدم TensorFlow و PyTorch مع البيانات الأكثر تعقيدًا زي الصور والفيديو.


مصادر وكتب للقراءة

بكده نكون عرفنا الخطوة الأهم في بداية فهم وتحليلات البيانات، وطبعًا المعلومات مش هتقف لحد هنا. تقدر تقرأ وتعرف أكتر في المصادر دي:

  • "Hands-On Exploratory Data Analysis with Python" by Suresh Kumar Mukhiya and Usman Ahmed.
  • "R for Data Science" by Hadley Wickham and Garrett Grolemund.
  • "Storytelling with Data" by Cole Nussbaumer Knaflic."

اشترك الآن بنشرة اقرأ-تِك الأسبوعية

لا تدع أي شيء يفوتك. واحصل على أحدث المقالات المميزة مباشرة إلى بريدك الإلكتروني وبشكل مجاني!