الغرض من الحوسبة هو الحكمة وليس الأرقام. Richard W. Hamming
هذه المقالة لها ثلاثة مهام. أولاً، تعريف علم البيانات وشرح كيف يفكر علماء البيانات الجيدون، وكيف يختلف هذا عن عقلية المبرمجين التقليديين ومطوري البرمجيات. ثانيًا، القاء نظرة على مجموعات البيانات من حيث إمكانات استخدامها، ونتعلم طرح الأسئلة الأوسع نطاقاً التي يمكن للبيانات الإجابة عنها. أخيراً، تقديم مجموعة من تحديات تحليل البيانات التي سيتم استخدامها كأمثلة محفزة.
ما هو علم البيانات؟
مثل أي مجال ناشئ، لم يتم تعريفه بالكامل حتى الآن، لكن يمكن القول أنّه يختص بكيفية استخدام البيانات بطرق مثالية إبداعية تساعد على توليد حكمة يمكن الاستناد عليها لاتخاذ القرارات.
أعتقد أن علم البيانات يكمن في تقاطع علوم الحاسوب (Computer Science) وعلم الإحصاء (Statistics) والرياضيات (Maths) ومجالات التطبيق المتنوعة (Application Domains). من علوم الحاسوب يأتي تعلم الآلة (Machine Learning) وتقنيات الحوسبة عالية الأداء (High Performance Computing). من الإحصاء والرياضيات يأتي تقليد طويل من التحليل الاستكشافي البيانات (Exploratory Analysis). من مجالات التطبيق في الأعمال والعلوم تأتي التحديات التي تستحق العمل، بالإضافة لمعايير تقييم النتائج المحصّلة والتأكد من صحّتها. الشكل التالي يوضّح المجالات المتداخلة في علم البيانات وبعض التقنيات الأساسية في كل مجال، لقد تعمّدت ترك المصطلحات باللغة الإنكليزية وذلك لمساعدة القارئ وتحفيزه على تعلّم المزيد من خلال قراءة المراجع المكتوبة باللغة الإنكليزية.
ولكن هذه كلها مجالات راسخة. لماذا علم البيانات؟ ولماذا الآن؟
يمكن ارجاع أسباب الاندفاع المفاجئ لعلم البيانات في الفترة الماضية الى ثلاثة أسباب:
- توفّر كميّة كبيرة جدا من البيانات والدخول في عصر البيانات الضخمة (Big data) التي تمكنّا من جمعها باستخدام تقنيات الحوسبة الحديثة، تتنوع هذه البيانات من بيانات الشبكات الاجتماعية، الى بيانات المستشعرات (Sensors) وبيانات السجلّات (Logging). بعد تجميع كل هذه البيانات، تبدأ في التساؤل عمّا يمكنك فعله بها.
- التقدم الضخم جدا في القوّة الحاسوبية المتاحة لأي شخص يملك اتصال بالإنترنت من خلال الحوسبة السحابية (Cloud Computing) بالإضافة للتطور الكبير في طرق وخوارزميات تحليل البيانات الضخمة. أضف الى ذلك ظهور تقنيات جديدة في مجال تعلم الألة (Machine Learning) ومعالجة اللّغات الطّبيعية (Natural Language Processing) والعديد من التقنيات المهمّة لتحليل البيانات
- قصص نجاح علم البيانات في التنبؤ بالانتخابات (Nate Silver, 2012) على سبيل المثال، واثبات قوّة علم البيانات في شركات التكنولوجيا البارزة مثل Google وFacebook مما جعلها نماذج يحتذى بها لإيصال علم البيانات إلى عدد كبير من الجمهور.
ما أهميّة تعلّم واستخدام علم البيانات؟
البيانات هي “نفط القرن الواحد والعشرين”، هذا هو المصطلح الذي تم استخدامه للدلالة على أهمية البيانات في العصر الحالي. وكما في حالة النفط الخام، لا يمكننا استعماله والاستفادة منه إلا في حال تكريره. كذلك هي البيانات، لا يمكننا الاستفادة منها إلا في حال تنقيبها وتحليلها واستخراج ما ينفع منها ويفيد. علم البيانات يعتبّر من أفضل الأعمال في القرن الواحد والعشرون واكثرها ربحا وقدرة على تغيير العالم، هذا ما زاد الطلب العالمي مع قلّة علماء البيانات الجيدون المتوفرين في سوق العمل.
تزايد الاهتمام بعلم البيانات في نهاية عام 2012 بشكل ملحوظ من قبل الشركات من جهة، والأفراد الراغبين بتعلم هذه المجال من جهة أخرى. وتظهر هذه الصورة المأخوذة من Google Trends مدى ازدياد البحث عن هذا المصطلح خلال هذه السنوات.
المراجع
Nate Silver. The Signal and the Noise: Why so many predictions fail-but some don’t. Penguin, 2012.
Skiena, S. S. (2017). The data science design manual. Springer.