مدخل للبيانات: فهم البيانات هي المفتاح السحري لعلوم الذكاء الإصطناعي

م

أقصد بعلوم الذكاء الإصطناعي (تعلم الآلة Machine Learning وتعدين البيانات Data Mining و علوم البيانات Data Science). وسأشرح في سلسلة دروس: مدخل للبيانات بإذن الله أهم مايحتاجة المبتدئ في مجمل هذه العلوم لفهم البيانات سأبدأها بهذا الدرس. وستحوي هذه السلسلة من الدروس بعون الله وتوفيقه، المقصود من البيانات وتمثيلها الجبري algebriac والهندسي geometric وعناصرها  وأنواع قيم البيانات والتعامل معها بالمعادلات والصيغ الجبرية و الإحصائية statistical.

نبدأ بتعريفنا لكلمة البيانات Data. قد تجد تعريفات كثيرة لكن تعريفي الشخصي لها، بأنها: نتائج قياس وملاحظات لشئ محدد ومعرف مسبقاً قد يكون متغير أو ثابت في بُعدي الزمان والمكان (الترجمة الانجليزية The product of measurements and observations for a specific and predefined entity that might be constant or variable over spatial and temporal dimensions).

فمثلا:لو كان لدينا مريض، فإن عمره وطوله ووزنه ونبضات قلبه وضغط الدم ومستوى السكر في الدم وخلافه كلها من البيانات. ولو كنا نتحدث عن بيانات تويتر مثلا، فإن اسم المستخدم وجنسه وتغريداته ووقت التغريدة ومكان التغريدة (المنطقة الجغرافية التي تم التغريد منها) ولون الخلفية وصورة العرض كلها وغيرها من البيانات. السطر التالي يمثل بيانات:

Patient 1, sex = M, age = 35 years , weight = 90.5 kg, height = 168 cm, diabetic  = yes.

هذا المريض الأول وجنسه ذكر M، وعمره 35 عام،  ووزنه وطوله 90.5 كلجم و 168 سم تباعاً. هو مريض مصاب بالسكري.

وقد يكون عندنا أربعة مرضى آخرين غير هذا المريض بياناتهم كالتالي:

Patient 2, sex = M, age = 42 years , weight = 78 kg, height = 162 cm, diabetic  = no.

Patient 3, sex = F, age = 39 years , weight = 72.5 kg, height = 159 cm, diabetic  = no.

Patient 4, sex = F, age = 67 years , weight = 85 kg, height = 158 cm, diabetic  = yes.

Patient 1, sex = M, age = 78 years , weight = 101 kg, height = 171 cm, diabetic  = yes.

هذه البيانات كيف يمكن أن نهيئها مبدئيا للتعلم والتحليل؟ في تحليل البيانات وتعلم الآلة يجب أن نجعل هذه البيانات مرتبة على شكل جدول لفهمها بشكل أفضل:

لكن في الواقع فإن الرقم التسلسلي للمريض غير مهم في وقت التعلم. ولذلك يمكن أن نستغني عنه ونستدل على المريض وقت التعلم بالسطر row. فالمريض في السطر الأول يعتبر هو المريض الأول وهكذا.

ولأننا سنحتاج مستقبلا لعمل بعض العمليات الجبرية والهندسية والإحصائية، فإننا يفترض أن نحول هذا الجدول إلى مصفوفة Matrix، كالتالي:

 

\math{D = } \begin{bmatrix} M& 35& 90.5& 168& Yes\\ M& 42& 78& 162& No\\ F& 39& 72.5& 159& No\\ F& 67& 85& 158& Yes\\ M &78 & 101&171&Yes \end{bmatrix}

وكما تلاحظ فقد قمنا بتسمية هذه المصفوفة D. وفي الغالب فإننا نسمي المصفوفات ثنائية البعد  2-Dimensional Matrix في الرموز الرياضية بحرف كابتل مائل. لكن ماذا نعني بثنائية البعد؟ المقصود هي أنها مصفوفة ذات صفوف rows وأعمدة columns. ولاحظوا أن هذه المصفوفة هي مصفوفة عبارة عن (5\times~5) أي أن عدد الصفوف خمسة صفوف وعدد الأعمدة هي خمسة أعمدة. مع ملاحظة أنه ليس بالضرورة أن تكون المصفوفة أو مجموعة البيانات Dataset (وهذا هو الاسم الذي نستخدمه في علوم البيانات غالبا)، أقول ليس بالضرورة أن تكون مربعة. أي أنه ليس بالضرورة أن تكون عدد الصفوف مساوية لعدد الأعمدة. بل في الغالب انها غير متساوية. ونحن محظوظون إن كان عدد الصفوف أكثر من عدد الأعمدة لأسباب قد نتطرق لها في دروس أخرى بإذن الله.  

من جهة أخرى فإنني سأستخدم الرمز n ليرمز لعدد الصفوف بينما سأستخدم الرمز m ليرمز لعدد الأعمدة. وبالنظر في المصفوفة D فإننا نجد أن كل صف هو عبارة عن بيانات مريض واحد. وإذا أردنا أن نرمز للمريض الأول فإننا سنستخدم الرمز x_1  ونرمز للثاني بـ x_{2} وهكذا. وعليه فإن المصفوفة D هي عبارة عن بيانات مجموعة من المرضى كالتالي:

D = \{x_{1},x_{2},...,x_{n}\} , where~n = 5ويمكن ان يسمى كل واحد من هذه الصفوف x_i عنصراً entity أو عينة sample أو سجل record أو نقطة point… الخ من المسميات المختلفة التي قد تواجهك باختلاف التخصص.

هذا فيما يخص الصفوف، فماذا عن الأعمدة؟

كل عمود من الأعمدة يمكن أن يسمى خاصية feature أو صفة attribute أو بعد Dimension. وإذا قلنا أن البيانات عديدة أو عالية الأبعاد  High or multi dimensional فهذا يعني أننا نقصد أن عدد الأعمدة فيها كبير نسبيا. وهي مشكلة حقيقية في التعلم من هذه البيانات وجودة التعلم ودقته. وقد تحدثت عنها جزئيا في موضوع سابق (بين استخراج الخصائص واختيارها FEATURE EXTRACTION AND SELECTION). وسنسمى هذه الأعمدة الآن الخصائص features. وسنرمز لها ب f_{j}. ويمكن على ذلك أن تمثل هذه المصفوفة كذلك بالتالي:

D = \{f_{1},f_{2},...,f_{m}\} , where~m = 5

وعليه فإن العمر في هذه الحالة هو f_2.

أتمنى أن تكون واضحة الى الان. وسنكمل في الدرس التالي بإذن الله هذه السلسلة من دروس مدخل للبيانات.

عن الكاتب

سالم العلياني
سالم العلياني

متخصص في الذكاء الاصطناعي وتعلم الالة وعلوم البيانات.. حاصل على الدكتوراة من جامعة ولاية أريزونا بالولايات المتحدة الأمريكية. استاذ جامعي وCIO .. هنا أكتب في فلسفة العقل البشري وعلوم الذكاء الإصطناعي والمستقبل.

اضافة تعليق

سالم العلياني

سالم العلياني

متخصص في الذكاء الاصطناعي وتعلم الالة وعلوم البيانات.. حاصل على الدكتوراة من جامعة ولاية أريزونا بالولايات المتحدة الأمريكية. استاذ جامعي وCIO .. هنا أكتب في فلسفة العقل البشري وعلوم الذكاء الإصطناعي والمستقبل.

التواصل

أي مقال سأكتبه يكون المستهدف منه المتخصص فسأكتب ذلك في بداية المقال بإذن الله.

سأقدر كثيراً التعليقات التي تثير التساؤلات، وتناقش الأفكار، وتثري الموضوع..