أتلقى كثيراً من الأسئلة الجميلة حول الذكاء الإصطناعي وتعلم الآلة وتحليل البيانات وعلومها. ولكن هذا السؤال كان في نظري أحد أفضل الأسئلة التي تلقيتها. يقول السؤال “لماذا نحتاج لتمثيل البيانات في الذكاء الإصطناعي؟”
وللإجابة على هذا السؤال أعود بكم لآلاف السنين في الماضي حول حاجة الإنسان لتمثيل كلامه أو أفكاره بشكل مكتوب. لماذا احتاج الإنسان لأداة الكتابة؟ أول طريقة معروفة لدينا لتمثيل فكر الإنسان بشكل مكتوب هي الرسومات التي وجدت على الصخور وداخل الكهوف وغيرها من الأماكن الأثرية. لماذا كان الإنسان الأول يحاول أن يمثل أفكاره أو كلماته كرسومات جدارية؟ قد تتعدد الأسباب ولكن نستنتج اليوم حقيقة أنها استطاعت حفظ رسالة نقلت لنا وفهمنا منها وضع البيئة والإنسان وقتها لحد ما.
لماذا بعدها طور الإنسان حروف وأرقام أكثر وضوحاً لتدوين الأفكار والرسائل؟ الطريقة الأولى التي استخدمها الإنسان كانت رسومية وهي لم تكن واضحة. بل تشكو من ثلاثة عوامل تزيد من صعوبة فهم الرسالة أو وصولها للمتلقي بشكل واضح.
المشكلة الأولى هي عدم التيقن Uncertainty .. وتحصل عندما لايكون هناك اكتمال في فهم المعنى المراد أو نقص في كمية المعلومات التي استطيع استنتاجها من العبارة التي تم كتابتها.
المشكلة الثانية الغموض ambiguity وهي مشكلة حقيقية حيث يكون هناك عدم يقين في المعنى الحقيقي المراد من هذه الكلمات (المصورة مثلاً). وتحصل عند وجود أكثر من معنىً محتمل للعبارة. فمثلا صورة حصان قد يراد منه أنه حصان أصيل وقد يراد منه أنه تم استئناس الحصان في هذه المنطقة وقد يراد منه حصان سريع… الخ.
المشكلة الثالثة هي الضوضاء Noise .. وتحصل عند وجود كمية من المعلومات التي ليس لها علاقة بالمعلومات المهمة (الاشارات Signals) ..
اخترعنا اللغة المكتوبة بحروف وأرقام ذات معنى ومحددة بشكل واضح لإيصال رسائلنا وتمثيل أفكارنا بشكل لايحتمل الغموض وبدون نقص أو زيادة حتى يتمكن المتلقي من فهمها Perceive it بالمعنى الذي أردناه.
هل الكمبيوتر سيفهم بطريقتنا إذا أعطيناه البيانات كما يفهمها العقل البشري؟ بكل تأكيد أن الجواب لا.. إلا إذا فهمنا أولاً كيف يفهمها العقل البشري واستطعنا تمثيل تلك الطريقة في الكمبيوتر.
وعليه فقد حاولنا أن نخترع طريقة لتمثيل هذه البيانات بشكل يفهمه الكمبيوتر.
في الذكاء الاصطناعي يهمنا أن تكون البيانات التي تم إدخالها للخوارزمية بطريقة تفهمها الخوارزمية. لتستطيع التعامل معها وتحليلها واستخراج الخصائص المهمة منها وربطها مع بعضها بشكل يستطيع أن يبني منها المعرفة. وهذه الطريقة هي التي تساعد على تقليل الثلاث مشاكل السابقة التي ذكرناها وهي: مشكلة الغموض وعدم التيقن والضوضاء.
فلو أردنا تمثيل جزء بسيط من الصورة السابقة، ولنفرض أننا اخترنا الجزء الذي في الشكل التالي
فإن تمثيل هذا الجزء من الصورة سيكون عبارة عن مصفوفة بعداها 84 في 65 رقما إذا ماتجاهلنا البعد الثالث واعتبرنا أن الصورة بألوان رمادية.. تبين الأرقام التالية التمثيل الذي سيسجل في الكمبيوتر لجزء بسيط جدا من الصورة أعلاه..
161 151 175 168 182 174 122 80 93 88 70 74 82 108
189 149 160 183 145 117 110 83 73 83 87 86 77 128
186 179 129 83 71 84 104 91 90 91 95 92 106 152
187 150 129 98 74 63 69 84 108 113 126 142 163 120
78 66 74 66 89 92 72 105 101 117 146 163 166 110
65 64 61 81 96 99 104 80 93 136 149 138 92 104
وحتى مع وجود هذه الطرق لتمثيل البيانات فإن المشاكل سابقة الذكر مازالت موجودة ومازال تقليل تبعاتها على فهم البيانات مهمة صعبة تجري أبحاث كثيرة عليها. ومنها أبحاث تنظيف وتمثيل وتقليل الضوضاء في البيانات. وهناك طرق كثيرة يصعب حصرها لحل هذه الإشكالات.
سعادة الدكتور المحترم سالم العلياني/
أشكر خضرتك على هذه المدونة الأكثر من رائعة وعلى مشاركة كل هذه المعلومات باللغة العربية وبلغة علمية راقية
انا مازلت في بداية دراسة الدكتوراه في علم البيانات وقد قمت بقراءة كل المواضيع في هذه المدونة واستفدت كثيرا وزاد شغفي في هذا المجال الكبير
أشكرك مرة أخرى على ما تقدمه هنا او في اليوتيوب.