
أخطاء وعثرات علماء البيانات
البيانات التي أبصرت حمل المراهقة قبل العائلة!
إن واحدة من أغرب الحالات التي جاء ذكرها في الصحف الأمريكية هي قصة أب توجه إلى أحد أفرع متجر Target في الولايات المتحدة شاكياً أن المتجر يرسل رسائل إلكترونية إلى ابنته المراهقة عن الحفاضات واللبن والحليب المخصص للأطفال الرُضّع. كان غاضباً منهم وراح يسأل. “لماذا تريدون لابنتي المراهقة أن تنجب طفلاً؟” وكان من الواضح أنه منزعج من هذه الرسائل أو الحملة الإعلانية ومن الواضح أنهم اعتذروا ولكن عاد الأب بعد ذلك بأسبوعين واعتذر لهم قائلاً إنه لم يكن يعرف أن ابنته كانت حاملاً!. السؤال الآن هو كيف عرف أناس في متجر Target مثل هذا الأمر قبل حتى أن يعرف الأب؟ ما حدث هو أنهم كانوا يتابعون السلوك الشرائي للأفراد. فإذا كانت الفتاة تشتري مثلاً نوعًا من المكملات الغذائية أو الفيتامينات فحينها يعرفون أن ذلك يشير لكونها في الثلث الأول من فترة الحمل فيعرفون ما المنتجات التي يجب أن يرسلوها لها في حملاتهم الدعائية.
على افتراض أن من اشترت هذه المكملات كانت حاملاً. تلك قصة رائعة عن علم البيانات وكيف يمكن لعلم البيانات التنبؤ بسلوك المستهلكين حتى قبل أن تكتشف العائلة ذلك!. ولكني أجد ذلك غريبًا ويدعو للقلق لأسباب متعددة. أولاً وقبل أي شيء، مقابل كل تنبؤ صحيح هناك المئات من التنبؤات غير الصحيحة والتي نسميها نتيجة إيجابية خاطئة وفي الواقع ليس هناك عالم بيانات يعلن عما وقع في عمله من نتائج إيجابية خاطئة. ما يتم الإعلان عنه والترويج له هو ما تم على نحو صحيح. ولكن عند حدوث المئات من الأخطاء لا يتم التصريح عنها. الأمر الثاني، هو أن ذلك يمثل إساءة استخدام للبيانات. إذ إن ذلك لا يمنحك الكثير من الرؤى. فما وجده علماء البينات في المتجر ليس سوى علاقة ارتباط لكن يمكن لأي شخص أن يشتري المواد نفسها لصالح شخص آخر. لذا فهناك احتمالات للخطأ واحتمالات كبيرة للغاية للحصول على نتائج إيجابية خاطئة. ومن ثم، أجد الأمر غريبًا وأعتقد أنه يعطي انطباعًا زائفًا عن قدرتنا على التنبؤ بالمستقبل. الواقع أن ما نتحدث عنه هو علم البيانات والمسألة الأكثر أهمية لعالم البيانات المبتدئ أن يعلم أن جميع التنبؤات خاطئة. هي مفيدة ولكنها خاطئة!. ولذا يجب على المرء ألا يُفرط في الثقة بأنه مع قدرتنا الحالية على القيام بتحليلات تنبؤية أننا أصبحنا قادرين على حل جميع المشاكل.
الطبيب جوجل!
نشرت جوجل ورقة بحثية أشارت فيها لقدرتهم على التنبؤ بحدوث أوبئة الإنفلونزا قبل مركز مكافحة الأمراض. وما فعلوه هو أنهم كانوا يبحثون فيما يبحث عنه الناس على جوجل فإن كانوا يبحثون عن أعراض الإنفلونزا فسيطلع العاملون لدى جوجل على عمليات البحث تلك قبل أي شخص آخر وسيمكنهم التنبؤ بها. الأمر هو أن عمليات البحث تلك مفيدة ومرتبطة ببعض النتائج ولكن هذا ليس صحيحًا بالضرورة طوال الوقت. لذلك، عندما أعلنت جوجل ذلك في حينه، كان خبرًا كبيرًا أثار إعجاب الجميع. فها نحن في عصر جديد نستشرفه بالتحليلات التنبؤية. إلا أنه بعد مرور سنوات معدودات تبين أن تنبؤات جوجل تشتمل على نتائج إيجابية خاطئة. أي أنهم يتنبؤون بأشياء لا وجود لها أو أن التنبؤات لم تكن صحيحة لأسباب متعددة. وقد قاموا على الأرجح بتغيير الخوارزميات التي يستخدمونها ولم تكن مجموعات البيانات وثيقة الصلة بالنتائج. فما الدرس المستفاد هنا؟ علينا هنا أن نتجنب ما يمكن تسميته بالاغترار بالبيانات. أي أنه ليس لك أن تُفرط في الثقة في دقة النماذج التي لديك إذ قد تضللك!.
Tag:علم البيانات
1 Comment
شي بيحير