وقفت في جنيف مع وزير الذكاء الاصطناعي الاماراتي عمر سلطان العلماء والدكتور أنس باسلامة نتحدث عن كيف يمكن للنظام الذي كان يعرضه الدكتور باسلامة لرصد بعض المخالفات المرورية بشكل ذكي وتلقائي، وكان السؤال الذي تبادر لذهني كيف لنظام الرصد الآلي أن يميز حزام الآمن خاصة إذا كانت الصورة لامرأة؟ ولكن سرعان ماتساءل معالي الوزير عن نفس التساؤل.
فقلت أن هذا كان سؤالي الأول لأخي الدكتور أنس باسلامة عندما رأيت مشروعه. وذكر لنا الوزير أن هذا التساؤل سبق وطرح في دبي.. ثم قال هذا نوع من التمييز العنصري.
وقبل أيام قليلة طرح الدكتور مازن مليباري سؤالاً في حسابه في تويتر مفاده أنه هل يمكن أن يتم تدريب نوع من خوارزميات تعلم الآلة (ذكر بالتحديد Reinforcement Learning) لتمييز الجمال Beauty.
في الحقيقة أن سؤال المبدع الدكتور مازن قادني للتفكير في التمييز العنصري الذي يمكن أن ينتج من مثل هذه الفكرة. وبالطبع لن يكون التمييز العنصري مقصوداً في المقام الأول. ولايخفى على مازن كل الأسباب التي ستجعل النظام متحيزاً وليس من السهل تجنب هذا التحيز.
كل هذا قادني لطرح استفتاء في تويتر حول هل يمكن أن يكون الذكاء الاصطناعي “عنصرياً”..؟ وكانت نتائج الاستبانه كما في الصورة أدناه..
هل يمكن أن يكون #الذكاء_الاصطناعي عنصرياً؟! كيف؟
من لديه رأي فلايتردد عن مشاركته..— Salem Alelyani|سالم العلياني (@salem_alelyani) September 14, 2018
شارك في الاستفتاء أكثر من 100 مصوت وذهبت أغلبية الأصوات لأنه يمكن أن يكون عنصرياً بنسبة قاربت 80%.
وأنا أصوت كذلك بنعم..
دعوني أكون أكثر دقة هنا وأستبدل كلمة عنصرياً Racist بكلمة متحيز Biased.
كانت أغلب التعليقات تدور في فلك البيانات Data .. يقول صديقي تركي العلياني (طالب دكتوراة بأمريكا) أن أنظمة الذكاء الاصطناعي يجب أن تكون ممثلة لأكبر شريحة من خبرات الانسان ولذلك علينا جمع كم كبير من البيانات المتنوعة التي تمثل تلك الخبرات والآراء.
وهذا صحيح.. ولكن لاننسى أننا لنستفيد من بيانات متنوعة بشكل كبير، تمثل الجمال مثلاً، فإننا سنضطر إلى أن نجعل نموذج التعلم Learning Model معقداً جداً So complex. وهذا سيؤدي فعلاً إلى تقليل التحيز Bias ولكنه في المقابل سيؤدي إلى مشكلة أخرى هي زيادة التباين Variance. بمعنى آخر أننا سنزيد مايسمى Overfitting لتقليل Underfitting.
أما زيد اليافعي (طالب ماجستير في جامعة الملك فهد للبترول والمعادن) فطرح مثالاً جميلاً عن نموذج قام ببنائه باستخدام خوارزمية GAN لانتاج صورة تبدو حقيقية معتمداً في ذلك على مجموعة من صور المشاهير. كانت أغلب النتائح حسب زيد، تبدو للعرق الأبيض.
دربت GAN على صور مشاهير، النتائج كانت غالباً لأشخاص ذوي بشرة بيضاء 🙂 pic.twitter.com/QtbnudRkeZ
— Zaid زيد (@zaidalyafeai) September 14, 2018
وقد اعجبني مثال زيد .. كثيراً.. ولكن من الصعب أيضا تحديد ماهية العرق الناتج.. فقد يكون ماهو الامزيج من الألوان الموجودة. وهذا أغلب الظن والتحيز هنا قد يكون لأن البيانات غير متوازنة unbalanced data. وهذه معضلة حقيقة في كثير من البيانات.
أعطيكم مثالا: أغلب النماذج التي يتم بناءها لتعليم الآلة على الصور يتم بناءها باستخدام مجموعة البيانات الشهيرة ImageNet والتي تتكون من 14 مليون صورة موسومة Labelled ولكن أكثر من 45% من هذه الصور يأتي من الولايات المتحدة الأمريكية فقط. علما أن أمريكا لاتكون من العالم على أرض الواقع سوى 3% من سكان العالم. أما الصين والهند التي تشكل أكثر من 30% من سكان العالم فإن الصور التي تعود لهم في ImageNet حوالي 3% فقط من 14 مليون. وهذا كفيل بجعل النموذج المبني متحيز.
النموذج الذي سيتم بناؤه من هذه البيانات نتائجه وقت الاختبار ستكون تتجاوز دقة 40% لو أجبنا فقط بأن الصورة من أمريكا. ولو تجاهلنا الهند والصين فإن التأثير في الدقة لن يكون أكثر من 3% وهي نسبة لاتذكر في مثل هذه النماذج خاصة مع وجود الوسوم المتعددة multiclasses. ولكن عندما يطرح البرنامج للاختبار على بيانات واقعية من العالم فالمتوقع أن يكون بعيداً عن الواقع في دقته وسيتأثر بمشكلة الـ overfitting الموجودة في النموذج والتي أثر عليها عدم توازن البيانات.
ولذلك على الباحثين في هذا المجال والممارسين اختيار البيانات بعناية قبل كل شيء.
سنكمل الموضوع في المدونة القادمة بإذن الله.