در شماره قبل (بخش نخست مقالات داده‌کاوی بر مبنای چه فرآیندهایی انجام می‌شود؟  ) به این نکته اشاره کردیم که داده‌کاوی بر مبنای یکسری فرآیندهای تکرار شونده انجام می‌شود. فرآیندهایی که ممکن است حالت چرخشی داشته باشند تا داده‌های پالایش شده‌ای به دست آیند و خروجی دقیق‌تری به دست آید. در ادامه با مراحل فرموله‌سازی مسئله و جمع‌آوری داده‌ها آشنا شدیم. در این مقاله با مراحل پیش پردازش داده ها، برآورد مدل، تفسیر‌ مدل و نتیجه‌گیری آشنا می‌شویم.

  1. پیش پردازش داده ها (Preprocessing the Data)

در حالت مشاهده‌ای (observational)، داده‌ها از طریق بانک‌های اطلاعاتی، انباره‌های داده و داده‌گا‌‌ه‌های (Data Mart) موجود جمع‌آوری می‌شوند. به‌طور معمول، پیش پردازش داده ها شامل دو فرآیند زیر است:

شناسایی داده‌های پِرت و حذف آن‌ها (Outlier detection and remove): شناسایی داده‌های پِرت می‌تواند در مرحله پیش پردازش داده ها یا به شکل یک فرآیند مستقل در داده‌کاوی انجام شود. راهکارهای مختلفی برای شناسایی داده‌های پِرت وجود دارد که معیار T2 و Q از جمله این روش‌ها است.

داده‌های پِرت که داده‌های غیرقابل تشخیص‌ نیز نامیده می‌شوند، داده‌های غیر معمولی هستند که با اکثر مشاهدات عینی سازگار نیستند. عوامل مختلفی داده‌های پِرت را پدید می‌آورند که از آن جمله می‌توان به وجود خطا در اندازه‌گیری، کدنویسی اشتباه در چگونگی ضبط داده‌ها و مقادیر غیر عادی اشاره کرد.

این نمونه‌‌ها به هیچ عنوان نماینده (Representative) قابل اعتمادی نیستند و می‌توانند روی مدلی که قرار است ساخته شود، تأثیر منفی بگذارند. دو برنامه راهبردی زیر برای حل مشکل داده‌های پِرت در دسترس متخصصان داده کاوی قرار دارد.

  • شناسایی و سرانجام حذف داده‌های پِرت به عنوان بخشی از مرحله پیش پردازش داده ها.
  • طراحی روش‌های مدل‌سازی قدرتمندی که نسبت با داده‌های پِرت حساس هستند.

گسترش‌پذیری، کدگذاری و انتخاب ویژگی‌ها (Scaling, encoding, and selecting features): پیش پردازش داده ها شامل مراحل چندگانه‌ای نظیر مقیاس‌بندی متغیر و انواع مختلف کدگذاری‌ها است.

به‌طور مثال، یک ویژگی در محدوده [0,1] و ویژگی دیگری در محدوده [-100,1000] به لحاظ تکنیکی وزن یکسانی ندارند و علاوه بر این نتایج نهایی متفاوتی را در بحث داده‌کاوی تولید می‌کنند. بنابراین توصیه می‌شود آن‌ها را بسط دهید و برای هر دو ویژگی وزن یکسانی را در زمان تجزیه و تحلیل اختصاص دهید.

علاوه بر این، روش‌های کدگذاری خاص‌منظوره با ارائه تعداد کمتری ویژگی‌ مفید و کاربردی سعی می‌کنند ابعاد داده‌هایی که قرار است در مدل‌سازی استفاده شوند را کاهش دهند. زمانی که تعداد ویژگی‌ها زیاد می‌شود، به یکباره طبقه‌بندی داده‌ها با خطای زیادی همراه می‌شود، متخصصان برای حل این مشکل از رویکرد پیشگیری از مزاحمت ابعاد (Curse of Dimensionality) استفاده می‌کنند که اشاره به کاهش ابعاد دارد.

موارد یاد شده تنها بخش کوچکی از فعالیت‌های پیش‌پردازشی هستند که در یک فرآیند داده‌کاوی انجام می‌شود. البته به این نکته مهم دقت کنید که پیش پردازش داده ها نباید به‌طور کامل مستقل از سایر مراحل داده‌کاوی انجام شود. در هر تکرار فرآیند داده‌کاوی، تمام فعالیت‌های انجام شده ممکن است مجموعه داده‌های بهبود یافته و جدیدی را برای تکرارهای بعدی تعریف کنند.

به‌طور کلی، یک روش پیش پردازش داده های خوب بر مبنای دانش از قبل به دست آمده و تکنیک‌های گسترشی و کدگذاری خاص‌منظوره یک نمایش بهینه برای یک روش داده‌کاوی ارائه می‌کنند. ما در آموزش‌های آتی به تفصیل به سراغ تکنیک‌ها و مرحله پیش‌پردازش خواهیم رفت و نشان می‌دهیم که چگونه فرآیند آماده‌سازی و کاهش ابعاد داده‌ها را عملیاتی کنید.

  1. برآورد مدل (Estimate the model)

انتخاب و پیاده‌سازی تکنیک مناسبی برای انجام داده‌کاوی فرآیند اصلی و مهم این مرحله است. این فرآیند ساده و سرراست نیست و بخش قابل توجهی از وقت متخصصان داده‌کاوی را به خود اختصاص می‌دهد. این مرحله پیاده‌سازی بر مبنای چند مدل انجام می‌شود و برای انتخاب بهترین مدل باید کارهای مضاعف زیادی انجام شود.

ما در مقاله‌های آتی، اطلاعات بیشتری در خصوص اصول اولیه و چگونگی کشف داده‌ها ارائه می‌کنیم و در ادامه به تشریح و تجزیه و تحلیل تکنیک‌های خاصی می‌پردازیم که اجازه می‌دهند یک فرآیند یادگیری موفق در ارتباط با استخراج داده‌ها و توسعه یک مدل مناسب را به کار ببرید.

  1. تفسیر مدل و نتیجه‌گیری (Interpret the model and draw conclusions)

در بیشتر موارد، مدل‌های داده‌کاوی به این دلیل طراحی می‌شوند تا به کسب‌وکارها در اخذ تصمیمات راهبردی کمک کنند، بنابراین مدل‌ها باید تفسیر‌پذیر باشند تا بتوان از آن‌ها استفاده کرد. در بیشتر موارد، کاربران تمایلی ندارند تا تصمیمات خود را بر مبنای مدل‌های پیچیده‌ای اتخاذ کنند که هیچ‌گونه شناختی در مورد آن‌ها ندارند و در اصطلاح تخصصی به آن‌ها جعبه سیاه (Black-Box) گفته می‌شود.

نکته مهمی که به عنوان یک متخصص داده‌کاوی باید به آن دقت کنید این است که گاهی اوقات تناقضی میان صحت تفسیر و صحت مدل‌ وجود دارد. به‌طور معمول، مدل‌های ساده تفسیر‌پذیرتر هستند، اما دقت کمتری دارند. در حالت کلی، روش‌های داده‌کاوی مدرن به دلیل این‌که از مدل‌های با ابعاد بالا (چندبعدی) استفاده می‌کنند، نتایج دقیق‌تری را ارائه می‌کنند.

مشکل تفسیر این مدل‌ها که باید به آن دقت کنید این است که به تکنیک‌های خاص و انجام کار جداگانه‌ای برای اعتبارسنجی نتایج نیاز دارند. کاربران تمایلی ندارند صدها صفحه نتایجی را که به آمارها و ارقام مختلف اشاره دارند، مشاهده کنند. علاوه بر این، کاربران عادی قادر به درک نتایج نیستند و برای خلاصه‌سازی، تفسیر و به‌کارگیری نتایج با هدف اخذ تصمیمات مهم دانش کافی را ندارند.

یک کارشناس داده‌کاوی باید به این نکته مهم دقت کنید که داده‌کاوی تنها در یک یا دو مرحله خاص خلاصه نمی‌شود. به عبارت دقیق‌تر، تنها زمانی یک مدل خوب و قدرتمند ساخته می‌شود که متخصص داده‌کاوی شناخت دقیقی در ارتباط با فرآیندهای انجام شده در هر مرحله داشته باشد. شکل زیر چرخه انجام یک فرآیند داده‌کاوی درست را نشان می‌دهد.

فرآیندهای انجام شده در داده کاوی

مهم نیست در چهارمین مرحله از چه راهکاری برای برآورد مدل استفاده می‌کنید، اگر در زمینه جمع‌آوری داده‌ها و پیش پردازش داده ها، عملکرد ضعیفی داشته باشید یا اگر فرموله‌سازی مشکل را به شکل معناداری انجام نداده باشید، مدلی که ساخته می‌شود ارزشمند نیست.

یک ائتلاف جهانی

در سال 1991 چند شرکت بزرگ دنیای فناوری و اقتصاد نظیر شرکت خودروسازی بنز، ارائه‌دهنده خدمات بیمه OHRA، NCR Corp سازنده تجهیزات سخت‌افزاری و نرم‌افزاری و SPSS Inc تولیدکننده نرم‌افزارهای آماری در یک همکاری مشترک اقدام به استانداردسازی رویکردها و فرآیند‌های داده‌کاوی کردند.

این همکاری مشترک باعث شد تا استاندارد‌ی به‌نام فرآیند استاندارد صنعت متقابل برای داده‌کاوی CRISP-DM سرنام Cross-Industry Standard Process for data mining ایجاد شود. شکل زیر فرآیندهای تشکیل‌دهنده داده‌کاوی مبتنی بر استاندارد CRISP-DM را نشان می‌دهد.

این استاندارد به گونه‌ای تدوین شد که مستقل از هرگونه وابستگی به ابزار خاصی است. متدولوژی CRISP-DM موفق شد رویکرد ساخت یافته‌ و نوینی در ارتباط با برنامه‌ریزی پروژه‌های داده‌کاوی ارائه کند. شش مرحله استاندارد CRISP-DM به شرح زیر است:

درک و شناخت کسب‌وکار: این مرحله بر شناخت اهداف و الزامات مدنظر کسب‌وکار و تبدیل این اطلاعات خام به دانشی که در زمینه داده‌کاوی استفاده می‌شود، متمرکز است.

درک داده‌ها: این مرحله روی جمع‌آوری اولیه داده‌ها متمرکز است. در ادامه فرآیندهایی با هدف آشنا شدن با داده‌هاییی که قادر به تشریح مشکلات کیفی داده‌ها هستند انجام می‌شود. در این مرحله سعی می‌شود بینش اولیه از داده‌ها به دست آمده و در ادامه، مجموعه داده‌های جالبی که برای شکل دادن به فرضیه‌هایی که منجر به کشف اطلاعات مستتر می‌شوند، شناسایی شوند.

آماده‌سازی داده‌ها: آماده‌سازی داده‌ها شامل تمامی فعالیت‌هایی است که برای ایجاد مجموعه داده‌های نهایی از مجموعه داده‌های خام اولیه انجام می‌شود.

مدل‌سازی: در این مرحله روش‌های مدل‌سازی انتخاب شده به شکل عملی روی مجموعه داده‌ها انجام می‌شود.

ارزیابی: زمانی که یک یا چند مدل ساخته شد که کیفیت بالایی دارند، یک‌به‌یک ارزیابی می‌شوند تا مشخص شود مدل‌های موجود برای داده‌های رویت نشده قابلیت عمومی‌سازی دارند و به تمامی الزامات مهم پاسخ می‌دهند. در نهایت بهترین مدل انتخاب می‌شود.

توسعه: این مرحله شامل توسعه و استقرار مدلی است که قرار است از اطلاعات جدید برای حل مشکلات کسب‌وکار استفاده کند.

برنامه‌های کاربردی مختلف داده‌کاوی، انعطاف‌پذیری، قابلیت عملیاتی و مفید بودن خود را تنها زمانی نشان می‌دهند که در زمینه تجزیه و تحلیل مسائل پیچیده کسب‌وکار استفاده شوند. این مدل یک توالی ایده‌آل از رخدادها را نشان می‌دهد. بر مبنای استاندارد فوق بسیاری از وظایف را می‌توان به صورت متفاوتی انجام داد و اغلب لازم است به فعالیت‌های انجام شده قبلی بازگشته و برخی اقدامات خاص را تکرار کرد.

این مدل سعی نمی‌کند تمام مسیرهای احتمالی را از طریق فرآیند داده‌کاوی ضبط کند. مدل‌سازی بر مبنای استاندارد فوق به خواننده یا مفسر اجازه می‌دهد با  نگاه کردن به الگوهای ترسیم شده به شناسایی ارتباطات و شباهت‌های میان مراحل داده‌کاوی بپردازد.

در شماره آینده مبحث فوق را ادامه می‌دهیم.

نویسنده: حمیدرضا تائبی