مدخل للبيانات: أنواع البيانات

م

في الدرس السابق (مدخل للبيانات: فهم البيانات هي المفتاح السحري لعلوم الذكاء الإصطناعي) تحدثنا عن تمثيل مجموعة البيانات كمصفوفة جبرية ووضحنا كيف يمكن أن نمثلها وبعض رموزها التي ستهمنا هنا. ولذلك أرجو أن تطلع على ذلك الدرس إذا لم تكن فعلت ذلك سابقا.

وتعلمنا أن الصفوف هي عناصر هذه البيانات وأن الأعمدة هي الخصائص لكل عنصر. لكن ماهي أنواع البيانات الممكنة في هذه المصفوفة؟

تنقسم البيانات لعدة أقسام يمكن أن تجمع في مجموعتين كبيرتين:

المجموعة الأولى: البيانات الفئوية Categorical Data

البيانات الفئوية هي البيانات التي تكون عبارة عن فئات. وتكون فيها البيانات عبارة عن مجموعة واضحة ومحددة من البيانات. وغالب هذه البيانات بيانات تمثل بكلمات أو حروف أو رموز (علما أننا نستبدلها في الأغلب بأرقام ترمز لها عند بناء نماذج التعلم كما سنتطرق لذلك في درس تنظيف البيانات Data Cleansing باذن الله) وهذه المجموعة بدورها تنقسم لقسمين:

  • القسم الأول من البيانات الفئوية هي البيانات الإسمية Nominal Data

وكما يتضح من اسمها هي البيانات التي تمثل أسماء الأشياء. فمثلا، لو كان لدينا عمود يمثل لون العينين أو الشعر أو اسم المدينة أو الرمز البريدي أو الحالة الإجتماعية أو الجنس.

والمصفوفة D من الدرس السابق تحوي عمود يمثل الجنس {M, F}. والبيانات الإسمية هي غير ترتيبة. فلاتستطيع أن تقارن بينها من ناحية الترتيب. فلايمكن أن تقول أن الرجل M أكبر من المرأة F من هذا العمود. ولاتستطيع ان تحدد أي ترتيب بناء على الرمز البريدي وهكذا. أي أن البيانات الاسمية لايوجد فيها ترتيب.

  • القسم الثاني من البيانات الفئوية هي البيانات الترتيبية Ordinal Data

وهي البيانات التي تكون فئوية ولها ترتيب منطقي. ومن أمثلة ذلك الدرجة العلمية للشخص (ابتدائي، متوسط، ثانوي، …الخ) وكذلك تقدير الطالب في المادة (أ، ب، ج، …) وكلها بيانات ترتيبية فيمكن أن تستدل منها أن الطالب “محمد” حصل على درجة أعلى من الطالب “خالد”. وهكذا. وفي الغالب هي البيانات التي نستطيع ان نستخدم معها علامات المقارنة (أكبر من وأصغر من بالاضافة لعلامة المساواة).

المجموعة الثانية: البيانات العددية Numerical Data

على العكس من البيانات الفئوية فإن البيانات العددية من اسمها تتكون من أعداد. وهي إما أعداد حقيقية \mathbb{R} أو الأعداد الطبيعية \mathbb{N}. وهي كذلك تتكون من عدة أقسام:

  • القسم الأول من البيانات العددية هي البيانات المنفصلة Discrete Data

ونعني بها البيانات التي تكون قيمها أعداد محددة بمجموعة منهية من الأرقام. فمثلا، درجة الحرارة والعمر أيام الشهر … الخ. وهناك حالة خاصة من البيانات المنفصلة عندما تكون مجموعة الأرقم عبارة عن عددين فقط وهنا نسميها البيانات الثنائية Binary. ومن أمثلة ذلك كأن يكون لدينا عمود يبين نوع مرض السكري (النوع الأول والنوع الثاني = 1 , 2). أو أن يحدد هل الطالب ناجح =1 أو راسب =0.

  • القسم الأول من البيانات العددية هي البيانات المتصلة Continuous Data

وبعكس القسم الأول فإن البيانات المتصلة لانستطيع أن نحددها بمجموعة منتهية من الأرقام. فمثلا، وزن الشخص يمكن أن يكون 90.5 أو 95.7 وغيرها. فلايمكن أن نحدد مجموعة الأوزان أو الأطوال أو المسافات… الخ.

لكن هناك من يقسم مجموعة البيانات العددية إلى قسمين آخرين من ناحية حدود البداية والنهاية Interval-Scaled، كدرجة الحرارة للشخص أو تاريخ الشهر (من 1 إلى 31). وقسم الحدود النسبية Ratio-Scaled. وهي التي يمكن أن نقارن بين عناصرها بالنسبة. فلو أن العمود يمثل العمر، فإننا يمكن أن نقول أن عمر 50 هو ضعف عمر 25. وهكذا.

عن الكاتب

سالم العلياني
سالم العلياني

متخصص في الذكاء الاصطناعي وتعلم الالة وعلوم البيانات.. حاصل على الدكتوراة من جامعة ولاية أريزونا بالولايات المتحدة الأمريكية. استاذ جامعي وCIO .. هنا أكتب في فلسفة العقل البشري وعلوم الذكاء الإصطناعي والمستقبل.

التعليق ٪

  • جميل جدا دكتور سالم
    اثراء المحتوى العربي بهذا الموضوع الهام
    اقترح مع زيادة الدروس نقلها في ويكي مع زيادة الروابط بين الصفحات والكمات

    • سعدت كثيرا بمرورك ياغالي..
      سيتم العمل على ذلك باذن الله..
      لا استغني عن اقتراحاتك البناءة..

      تحياتي لك

سالم العلياني

سالم العلياني

متخصص في الذكاء الاصطناعي وتعلم الالة وعلوم البيانات.. حاصل على الدكتوراة من جامعة ولاية أريزونا بالولايات المتحدة الأمريكية. استاذ جامعي وCIO .. هنا أكتب في فلسفة العقل البشري وعلوم الذكاء الإصطناعي والمستقبل.

التواصل

أي مقال سأكتبه يكون المستهدف منه المتخصص فسأكتب ذلك في بداية المقال بإذن الله.

سأقدر كثيراً التعليقات التي تثير التساؤلات، وتناقش الأفكار، وتثري الموضوع..