إستكمالاً للمدونة السابقة التي ناقشنا فيه تحيز الذكاء الإصطناعي (هل يمكن أن يكون الذكاء الإصطناعي عنصرياً؟).
كانت كثير من الإجابات تعزو عنصرية الآلة إن حدثت إما إلى المبرمج (مطور الآلة الذكية) أوالبيانات.
هل يمكن أن يكون #الذكاء_الاصطناعي عنصرياً؟! كيف؟
من لديه رأي فلايتردد عن مشاركته..— Salem Alelyani|سالم العلياني (@salem_alelyani) September 14, 2018
كررت في كثير من المحاضرات التي أقمتها أن البيانات هي وقود الذكاء الإصطناعي. وهذا هو مازلت أؤمن به. إن أي بيانات سيتم الاستفادة منها لتعليم الآلة وبناء نموذج التعلم Learning Model هي ماسينعكس على نتائج ومخرجات الآلة. الخوارزمية في حد ذاتها لاتميل بدون قوة خارجية إلى اختيار نوع واحد من البيانات والاعتماد عليه. بل في الغالب أننا نستخدم عند بناء نموذج التعلم بعض الطرق التي نعتقد أنها تضمن لنا تمثيل التوزيع الحقيقي للبيانات Underlying Data Distribution. ومن هذه الطرق مثلاً (والتي نطلق عليها إختيار النموذج Model Selection)
k-fold Cross Validation CV أو ربما نستخدم الاختيار العشوائي Random Sampling لعشرات وربما مئات المرات. وقد يذهب البعض لتكرار التدريب على كامل البيانات مرات كثيرة مع تغيير عنصر واحد فقط Leave One Out. وهذا نوع خاص من CV الذي ذكرناه أعلاه.
وعليه فالتحيز لن يكون إلا في البيانات (ومنها طريقة إختيار البيانات وقت التدريب وليس وقت جمع البيانات فقط).
الغريب في الأمر أننا نقضي وقتاً طويلاً في تنظيف البيانات Data Cleansing وإعداد البيانات Data Preparation وهذا بكل تأكيد أمر رائع، وفي الغالب هو مايمثل 70% الى 80% من الوقت الذي أقضيه شخصيا في بناء النموذج للتعلم. ولكننا نغفل العملية الأهم في نظري ألا وهي اختيار البيانات. إنها بمثابة إختيار المواد التي يدرسها إبنك أو المعلومات التي ترغب في ان تعلمه إياها.
قبل اختيار النموذج، لابد أن نعرف من أين نحصل على البيانات. لابد أن نتأكد أنها عينة ممثلة للحقيقة التي نبحث عنها. فلايعقل أن يتم بناء نموذج تعليم السيارة القيادة الذاتية مثلاً على شوارع أوربا ويتم إطلاق السيارة في الهند. وليس من المناسب تدريب الآلة على التعرف على أنواع الأشجار في الأمازون ومن ثم استخدام البرنامج في الجزيرة العربية. إن الآلة ستكون متحيزة بكل تأكيد بناء على البيانات التي تدربت عليها. هذا واحد من عدة عوامل سيسبب التحيز في الآلة، لكنه ليس السبب الوحيد.
عندنا مثلا مايسمى انزياح مجموعة اليبيات Dataset Shift أو يسمى Covariate Shift. ويحصل عندما يكون هناك اختلاف بين التوزيع (الاحصائي) للبيانات Data Distribution بين الذي تم التدريب عليه وبين البيانات الواقعية. قد يتساءل بعضكم ماهو الفرق بين النوع الذي ذكرناه سابقاً وهذا النوع. في الحقيقة أن الفرق يكمن في أن النوع الأول يكون مشكلته في مرحلة جمع البيانات. والتحيز حصل بسبب الجمع المتحيز للبيانات. أما النوع الثاني (انزياح البيانات) فيحصل بسبب تغير البيانات مع الوقت لكنها كانت سليمة وقت جمع البيانات. دعونا نأخذ مثالاً على ذلك. تصور أننا جمعنا صوراً من مدن العالم كافة لتمييز النمط العمراني وتحديد الدولة التي يتبع لها هذا النمط العمراني. وبعد تدريب النموذج على هذه الصور وتشغيل البرنامج لمدة عدة سنوات، حصل تغير في النمط العمراني في إحدى المدن، أو قامت مدينة عصرية حديثة لاتتبع للنمط العمراني السائد في ذلك المكان. فإن الآلة لن تستطيع أن تميز ذلك النمط ولن تنسبه في الغالب لتلك الدولة لاختلافه عن السائد. أي أن التغير (الانزياح) حصل في البيانات فاختلفت البيانات عن واقعها الذي كانت عليه.