من المصطلحات التي ظهرت حديثا “علم البيانات Data Science”. في الحقيقة هو مصطلح جذاب وبات كثير منا يدعي أنه عالم بيانات Data Scientist. وقد نشرت مجلة هارفارد بزنس ريفيو العريقة عام 2012 مقال بعنوان Data Scientist: The Sexiest Job of the 21st Century وفيه يذكر الكاتب أن عالم البيانات سيكون أكثر المسميات الوظيفية جاذبية في القرن الحادي والعشرين. لكن كيف لمصطلح ظهر في العقود الأخيرة أن يصبح أكثر المسميات الوظيفية جاذبية؟!
دعونا نؤمن أن السوق يتبع قاعدة العرض والطلب. إن مقدار البيانات التي جمعتها البشرية جميعا من عهد آدم إلى عام 2002 كان هو نفسه مقدار البيانات التي أنتجت في عام 2002 فقط. وأبشركم أن البيانات مازالت تتضاعف منذ ذلك الحين ولايوجد مايشير الى اقتراب انتهاء هذا التضاعف. خذوا مثلا، يتم تحميل أكثر من 400 ساعة فيديو في يوتوب كل دقيقة، أي حوالي خمسمائة وسبعون ألف ساعة في اليوم. والبعض قدر أن المساحة التخزينية اليومية الجديدة التي تستهلك لهذه الفيديوهات هي 24 تيرابايت..
قووقل مثلا يكفي أن نعرف أن مساحة مركز بيانات واحد لديها تساوي حوالي تسعة كيلو متر مربع. فيسبوك وتويتر ووكيبيديا وغيرها من المنصات تجمع البيانات بشكل متضاعف يوما بعد آخر.
وهناك مثلا، الطائرات بدون طيار الأمريكية في أفغانستان وحدها تجمع قرابة 8 آلاف ساعة من الفيديو يوميا. وهناك مسابير الفضاء في ناسا تجمع آلاف الساعات من المقاطع العالية الدقة من شتى أرجاء الكون يوميا.
السؤال الأهم، من هو الذي لديه القدرة على متابعة هذه البيانات بشتى أنواعها (فيديو، صور، نصوص، صوت…الخ) وتحليلها واستخراج المعلومات منها وايضا في أحيان كثيرة التوصية باتخاذ القرار المناسب حيالها. وكثير من هذه البيانات هي مادة خام بمجرد تعدينها تتحول إلى منتج والمنتج يعادل أموال (فلوس). مثلا، بحثك في محرك البحث قوقل عن مدينة في سويسرا سيجلب لك إعلانات السفر لسويسرا وهناك ايجار فندق وايجار سيارة ورحلة جوية وتوصيات مطاعم وفعاليات وخلافه.
ولذلك كان لتعدين البيانات Data mining دور كبير في علوم البيانات. وهو العمل الذي يقوم فيه المختصون بأخذ البيانات الخام raw data من قواعد البيانات وتنظيفها cleansing وتجهيزها representation (هذه المرحلة تمسى Data Preprocessing) لمرحلة الاستفادة منها ومن ثم استخراج المعرفة Knowledge extraction منها.
سأعطي مثالا في المدونة القادمة بإذن الله على تحليل البيانات واستخراج المعلومات منها.