
ماهي Big Data البيانات الضخمة أو وفرة البيانات
البيانات الضخمة أو وفرة البيانات Big Data كما يعرفها علماء البيانات بأنها البيانات التي بلغت حدًا معينًا في ضخامتها وأصبحت ذات حجم وسرعة في النمو يصعب معه التعامل معها باستخدام أنظمة قواعد البيانات التقليدية. بعض الإحصائيين يعرّفون البيانات الضخمة بأنها قدر من البيانات لا يمكن لوحدة ذاكرة محمولة أن تحتويه.
أصبح علم البيانات وتحليلات الأعمال من الموضوعات الرائجة بشكل واسع خلال السنوات الأربع أو الخمس الماضية. فقد أصبحت لدينا أدوات جديدة ومناهج جديدة إلى جانب الكثير والكثير من البيانات التي ما كان بوسع الأساليب القديمة تخزينها ومعالجتها. كما أصبح لدى الشركات وأرباب العمل إدراك لمدى احتياجهم لتلك التخصصات. من هنا بدأت شرارة الاهتمام بالبيانات الضخمة وسبر أغوارها لاستخراج الكنوز الدفينة فيها.
تاريخ البيانات الضخمة في الواقع بدأ مع تأسيس شركة جوجل عندما حاول مؤسسو الشركة إيجاد طريقة لاحتواء بيانات الانترنت على مستوى العالم. كان ذلك عندما أراد لاري بيج وسيرجي برين مبتكري محرك جوجل أن يكتشفا وسيلة لإنجاز خوارزمية تصنيف الصفحات PageRank لم يكن هناك ما يساعدهم على تحقيق ذلك إذ كانوا يحاولون تخزين كل صفحات الويب في العالم بأسره. ولم تكن هناك تقنية أو وسيلة لإنجاز ذلك. ومن ثم قاما بابتكار خوارزمية لانجاز هذا العمل الضخم وقد استنسختها منصة Hadoop. تلك كانت نقطة البداية لإنشاء كتل البيانات الضخمة لأول مرة . ولكن مفهوم البيانات الضخمة قد توسع الآن ليشمل كيفية التحليل والاستكشاف واستنطاق البيانات.
الطريقة التقليدية في مجال الحوسبة ومعالجة البيانات هي أن نُدخل البيانات في الكمبيوتر حيث يتم تشغيل برنامج ويتم إدخال البيانات في البرنامج ثم يقوم البرنامج بمعالجة البيانات وإصدار النتائج. أما في كتل البيانات الضخمة فما توصل إليه لاري بيج وسيرجي برين ببساطة شديدة هي أن تؤخذ البيانات ويتم تقسيمها إلى أجزاء ويتم توزيع كل جزء واستنساخه أو صنع ثلاث نسخ منه ليتم إرسال تلك الأجزاء من الملفات إلى آلاف من أجهزة الكمبيوتر – كانت مئات في البداية ثم أصبح عددها بالآلاف بل عشرات الآلاف- ثم يتم إرسال البرنامج نفسه إلى كل أجهزة الكمبيوتر الموجودة في الكتلة ليقوم كل كمبيوتر بتشغيل البرنامج على ذلك الجزء الصغير من الملف الذي لديه، ثم يرسل الكمبيوتر النتائج إلى المصدر كي يتم فرزها ثم تجري إعادة توزيع تلك النتائج مجددًا لإجراء عمليات أخرى.
هناك ميزة رائعة لكتل البيانات الضخمة تلك وهي إمكانية التوسع فيها أفقيًا فمع توفر ضعف عدد الخوادم صار لديك ضعف إمكانيات الأداء لمعالجة ضعف كمية البيانات وكان هذا بمثابة تجاوز عنق الزجاجة لكل شركات وسائط التواصل الاجتماعي الكبرى والشركات التقنية التي تملك كم هائل من البيانات.حيث لم تعد مشكلة حجم البيانات أو ضعف الموارد الحاسوبية عائقاً أمام تنفيذ خوارزميات معقدة ومتطورة تحتاج لموارد عالية لتقوم بتأدية عملها. لحقت شركة ياهو بهذا الركب فوظفت شخصًا يدعى دُج كتينج Doug Cutting كان يعمل على نموذج مستنسخ من نظام البيانات الضخمة لدى جوجل وهو يسمى الآن Hadoop، وإذا ما بحثت عنه عبر جوجل فسترى أن ذلك الاسم هادوب Hadoop أصبح مصطلحًا شائعاً جداً لدى علماء البيانات.
البنية الأساسية لعلم البيانات تقوم على علم الاحتمالات والإحصائيات كذلك الجبر والجبر الخطي والبرمجة وقواعد البيانات. كلها مجالات معروفة من عقود. ولكن ما يحدث الآن أنه قد صارت لدينا إمكانات الحوسبة التي تمكننا من استخدام تقنيات التعلم الآلي. فصار بوسعنا التعامل مع مجموعات البيانات الضخمة بحيث أننا لا نبدأ بمجرد عينة صغيرة منها لاختبار فرضية ما، وإنما أن نتعامل مباشرة مع مجموعات بيانات شديدة الضخامة للبحث عن أنماط متكررة، وبذلك نرجع خطوة إلى الوراء عن مرحلة اختبار الفرضيات للبحث عن أنماط من شأنها أن تؤكد أو تدحض الفرضيات البحثية.
هذا أحد أهم الفوارق التي يتميز بها علم البيانات عن علم الإحصاء إذ من المفترض أن تكون الفرضية مستقلة عن البيانات ثم يتم بعد ذلك اختبار تلك الفرضية وفق عمل الإحصائيين. ما نراه إذن هو التقاء وامتزاج لتقنيات ومجالات متعارف عليها في علوم الكمبيوتر مثل الاحتمالات والإحصائيات والرياضيات اجتمعت جميعها في هذا التخصص الذي نسميه علوم البيانات.
Tag:Big data, علم البيانات