في الدرس السابق (مدخل للبيانات: فهم البيانات هي المفتاح السحري لعلوم الذكاء الإصطناعي) تحدثنا عن تمثيل مجموعة البيانات كمصفوفة جبرية ووضحنا كيف يمكن أن نمثلها وبعض رموزها التي ستهمنا هنا. ولذلك أرجو أن تطلع على ذلك الدرس إذا لم تكن فعلت ذلك سابقا.
وتعلمنا أن الصفوف هي عناصر هذه البيانات وأن الأعمدة هي الخصائص لكل عنصر. لكن ماهي أنواع البيانات الممكنة في هذه المصفوفة؟
تنقسم البيانات لعدة أقسام يمكن أن تجمع في مجموعتين كبيرتين:
المجموعة الأولى: البيانات الفئوية Categorical Data
البيانات الفئوية هي البيانات التي تكون عبارة عن فئات. وتكون فيها البيانات عبارة عن مجموعة واضحة ومحددة من البيانات. وغالب هذه البيانات بيانات تمثل بكلمات أو حروف أو رموز (علما أننا نستبدلها في الأغلب بأرقام ترمز لها عند بناء نماذج التعلم كما سنتطرق لذلك في درس تنظيف البيانات Data Cleansing باذن الله) وهذه المجموعة بدورها تنقسم لقسمين:
- القسم الأول من البيانات الفئوية هي البيانات الإسمية Nominal Data
وكما يتضح من اسمها هي البيانات التي تمثل أسماء الأشياء. فمثلا، لو كان لدينا عمود يمثل لون العينين أو الشعر أو اسم المدينة أو الرمز البريدي أو الحالة الإجتماعية أو الجنس.
والمصفوفة من الدرس السابق تحوي عمود يمثل الجنس {M, F}. والبيانات الإسمية هي غير ترتيبة. فلاتستطيع أن تقارن بينها من ناحية الترتيب. فلايمكن أن تقول أن الرجل M أكبر من المرأة F من هذا العمود. ولاتستطيع ان تحدد أي ترتيب بناء على الرمز البريدي وهكذا. أي أن البيانات الاسمية لايوجد فيها ترتيب.
- القسم الثاني من البيانات الفئوية هي البيانات الترتيبية Ordinal Data
وهي البيانات التي تكون فئوية ولها ترتيب منطقي. ومن أمثلة ذلك الدرجة العلمية للشخص (ابتدائي، متوسط، ثانوي، …الخ) وكذلك تقدير الطالب في المادة (أ، ب، ج، …) وكلها بيانات ترتيبية فيمكن أن تستدل منها أن الطالب “محمد” حصل على درجة أعلى من الطالب “خالد”. وهكذا. وفي الغالب هي البيانات التي نستطيع ان نستخدم معها علامات المقارنة (أكبر من وأصغر من بالاضافة لعلامة المساواة).
المجموعة الثانية: البيانات العددية Numerical Data
على العكس من البيانات الفئوية فإن البيانات العددية من اسمها تتكون من أعداد. وهي إما أعداد حقيقية أو الأعداد الطبيعية . وهي كذلك تتكون من عدة أقسام:
- القسم الأول من البيانات العددية هي البيانات المنفصلة Discrete Data
ونعني بها البيانات التي تكون قيمها أعداد محددة بمجموعة منهية من الأرقام. فمثلا، درجة الحرارة والعمر أيام الشهر … الخ. وهناك حالة خاصة من البيانات المنفصلة عندما تكون مجموعة الأرقم عبارة عن عددين فقط وهنا نسميها البيانات الثنائية Binary. ومن أمثلة ذلك كأن يكون لدينا عمود يبين نوع مرض السكري (النوع الأول والنوع الثاني = 1 , 2). أو أن يحدد هل الطالب ناجح =1 أو راسب =0.
- القسم الأول من البيانات العددية هي البيانات المتصلة Continuous Data
وبعكس القسم الأول فإن البيانات المتصلة لانستطيع أن نحددها بمجموعة منتهية من الأرقام. فمثلا، وزن الشخص يمكن أن يكون 90.5 أو 95.7 وغيرها. فلايمكن أن نحدد مجموعة الأوزان أو الأطوال أو المسافات… الخ.
لكن هناك من يقسم مجموعة البيانات العددية إلى قسمين آخرين من ناحية حدود البداية والنهاية Interval-Scaled، كدرجة الحرارة للشخص أو تاريخ الشهر (من 1 إلى 31). وقسم الحدود النسبية Ratio-Scaled. وهي التي يمكن أن نقارن بين عناصرها بالنسبة. فلو أن العمود يمثل العمر، فإننا يمكن أن نقول أن عمر 50 هو ضعف عمر 25. وهكذا.
جميل جدا دكتور سالم
اثراء المحتوى العربي بهذا الموضوع الهام
اقترح مع زيادة الدروس نقلها في ويكي مع زيادة الروابط بين الصفحات والكمات
سعدت كثيرا بمرورك ياغالي..
سيتم العمل على ذلك باذن الله..
لا استغني عن اقتراحاتك البناءة..
تحياتي لك
شكرا جزيلا يادكتور معلومات قيمة جدا
هل من الممكن ان تتحدث عن fast data
السلام عليكم ورحمة الله وبركاته
وفقك الله دكتور سالم
محتوى مميز ما شاء الله
عندس سؤال لو سمحت أليس العمر ودرجة الحرارة بيانات متصلة؟