
مراحل استخراج البيانات Data mining
تحديد أهداف استخراج البيانات
تتطلب الخطوة الأولى في استخراج البيانات إعداد أهداف وأسئلة من الممكن أن تجيب عليها عملية التنقيب عن البيانات. الفيصل الرئيسي في تحديد أهدافنا من البيانات المستخرجة يجب أن يتم عبر المفاضلة بين التكلفة والدقة من نتائج العملية.
اختيار البيانات
تعتمد عملية التنقيب عن البيانات إلى حد كبير على جودة البيانات المستخدمة. في بعض الأحيان ، تكون البيانات متاحة بسهولة لمزيد من المعالجة. على سبيل المثال ، بيانات محال تجار التجزئة في كثير من الأحيان فلديهم معلومات وافية و قواعد بيانات كبيرة من مشتريات العملاء وسلوكياتهم. من ناحية أخرى ، البيانات قد لا تكون متاحة بسهولة لاستخراج البيانات. في مثل هذه الحالات ، يجب تغيير مصادر البيانات أو حتى التخطيط لمبادرات جديدة لجمع البيانات ، بما في ذلك الدراسات الاستقصائية.
معالجة المسبقة البيانات
تعد معالجة البيانات المسبقة خطوة مهمة في استخراج البيانات. غالبًا ما تكون البيانات الخام غير مستقرة تحتوي على بيانات خاطئة أو غير ذات صلة. بالإضافة إلى ذلك ، حتى مع البيانات ذات الصلة ، قد تواجه كثير من البيانات التي تحتاج لدمج لتعطينا صورة أفضل. في مرحلة ما قبل المعالجة.
تحويل البيانات
بعد تعيين الميزات المطلوبة للبيانات وانتهاء عملية المعالجة المسبقة، فإن الخطوة التالية هي تحديد التنسيق المناسب الذي يجب أن يتم فيه تخزين البيانات. يمكن التقليل من عدد الميزات دون خسارة كبيرة في المعلومات. بالإضافة إلى ذلك ، قد تحتاج إلى أن تكون المتغيرات تحولت للمساعدة في شرح الظاهرة التي تجري دراستها. على سبيل المثال ، الفرد يمكن تسجيل الدخل في مجموعة البيانات كدخل للأجور ؛ الدخل من مصادر أخرى ، مثل تأجير الممتلكات. مدفوعات الدعم من الحكومة ، وما شابه ذلك. تجميع هذه المداخيل ثم تقسيمها لفئات في قاعدة البيانات كمنخفضة ومتوسطة وعالية الدخل للفرد يمكن أن يساعد في تسهيل عملية التنقيب عن البيانات
تخزين البيانات
يجب تخزين البيانات المحولة بتنسيق يجعلها مواتية لاستخراج البيانات. يجب تخزين البيانات بتنسيق يعطي قراءة / كتابة غير مقيدة وفورية. فأثناء عملية استخراج البيانات ، يتم إنشاء متغيرات جديدة ، والتي هي كتابة مرة أخرى إلى قاعدة البيانات الأصلية ، ولهذا السبب يجب أن يكون نمط تخزين البيانات يُسهيل القراءة والكتابة على قاعدة البيانات. كذلك يجب أن تكون سلامة البيانات وخصوصيتها مصدر قلق رئيسي لمخزني البيانات.
التنقيب عن البيانات
بعد معالجة البيانات وتحويلها وتخزينها بشكل مناسب ، فإنها تخضع لعملية التنقيب أو لاستخراج البيانات. تغطي هذه الخطوة طرق تحليل البيانات ، بما في ذلك الطرق البارامترية وغير البارامترية ، وخوارزميات التعلم الآلي. طرق عرض متعددة الأبعاد باستخدام إمكانات الرسوم البيانية المتقدمة مفيدة جداً في تطوير فهم أولي للاتجاهات الخفية في مجموعة البيانات.
بعد استخلاص النتائج من استخراج البيانات ، يمكنك إجراء تقييم رسمي للنتائج. يمكن أن يشمل التقييم الرسمي اختبار القدرات التنبؤية للنماذج على البيانات المرصودة لمعرفة مدى فعالية الخوارزميات وفعاليتها بالإضافة إلى ذلك ، فإن النتائج هي يجب مشاركتها مع أصحاب المعنيين في المؤسسة أو مجال العمل لأخذ التعليقات وقياس مدى أهمية النتائج. استخراج البيانات وتقييم النتائج يصبح عملية تكرارية بحيث يستخدم المحللون خوارزميات أفضل ومحسّنة لتحسين جودة النتائج الناتجة في ضوء ردود الفعل والتعليقات الواردة من المعنيين والمدراء في المؤسسة.