برای این که بدانید داده کاوی چیست، لازم است بخش قبلی مطلب داده‌کاوی را در این آدرس مطالعه کنید تا پیوستگی مطالب در ذهنتان ترتیب درستی داشته باشد.

دانش و مهندسی نوین بر مبنای به‌کارگیری مدل‌های زیربنایی اولیه به توصیف سامانه‌های فیزیکی، زیستی و اجتماعی می‌پردازد. سرآغاز چنین تحولی را می‌توان با قوانین حرکت نیوتن یا معادلات ماکسول در الکترومغناطیس پیدا کرد که در ادامه کاربردهای مختلفی برای آن‌ها در مهندسی مکانیک و برق ابداع شد.

در رویکرد فوق، داده‌های تجربی برای بررسی مدل‌های اولیه و زیربنایی و تخمینی در ارتباط با پارامترهایی که دستیابی به آن‌ها گاهی اوقات غیرممکن یا دشوار است، مورد استفاده قرار می‌گیرد. با این‌حال، در بسیاری از حوزه‌ها، اصول اولیه، ناشناخته و مجهول هستند یا سامانه‌هایی که باید مورد مطالعه قرار بگیرند بیش از اندازه پیچیده هستند که بتوان اصول زیربنایی آن‌ها را به معادلات ریاضی تبدیل کرد.

رشد روزافزون به‌کارگیری کامپیوترها در حوزه‌های مختلف باعث شد تا حجم گسترده‌ای از داده‌ها توسط سامانه‌ها تولید شود. در غیاب مدل‌های بنیادین اولیه، اطلاعات جمع‌آوری شده توسط این سامانه‌ها را می‌توان برای ساخت نمونه‌های شبیه‌سازی شده‌ای مورد استفاده قرار داد که رابطه میان متغیرهای یک سامانه (وابستگی‌ها و ورودی و خروجی ناشناخته) را نشان می‌دهند.

این نگرش باعث شد تا شاهد یک تغییر پارادیم از مدل‌سازی تجزیه و تحلیل کلاسیک مبتنی بر اصول اولیه به سمت توسعه مدل‌ها و تجزیه و تحلیل‌هایی باشیم که برخواسته از داده‌ها هستند. اگر به اطراف و پیرامون خود نگاه کنید، کامپیوترها، شبکه‌ها و تجهیزات خانگی را مشاهده می‌کنید که حجم عظیمی از داده‌ها را تولید می‌کنند. بر همین اساس است که آژانس‌های دولتی و موسسات علمی منابع مالی هنگفتی را برای جمع‌آوری و ذخیره‌سازی داده‌ها اختصاص داده‌اند.

با این‌حال، مقدار کمی از این داده‌ها قابل استفاده است، زیرا در بیشتر موارد، حجم داده‌هایی که باید مدیریت شوند بیش از اندازه بزرگ هستند یا ساختارهای داده‌ای بسیار پیچیده‌ای دارند که بتوان به شکل موثر آن‌‌ها را تجریه و تحلیل کرد. چرا این اتفاق می‌افتد؟ پاسخ روشن است. تلاش برای مدیریت مجموعه بزرگی از داده‌ها به عوامل مختلفی از جمله، عملکرد تجهیزات ذخیره‌ساز، معماری که قرار است داده‌ها را از منابع اطلاعاتی واکشی کند و نحوه عملکرد معماری که برای تجزیه و تحلیل داده‌ها استفاده می‌شود بستگی دارد.

داده‌کاوی چیست ؟

تقریبا تمامی صنایع، علوم و رشته‌های مهندسی برای انجام بهتر فعالیت‌های خود مجبورند ماهیت مجموعه داده‌های بزرگ، پیچیده و غنی از اطلاعات را درک کنند. در دنیای تجارت، اطلاعات کسب‌وکار و مشتریان به عنوان دارایی‌های راهبردی (استرانژیک) شناخته می‌شوند.

توانایی استخراج دانش مفید نهان در این داده‌ها و عمل بر مبنای این دانش در دنیای رقابتی امروز به‌طور فزاینده‌ای حائز اهمیت شده است. داده‌کاوی، فرآیند به‌کارگیری روندها و الگوهای مبتنی بر کامپیوتر است که شامل تکنیک‌ها و ابزارهای نوینی می‌شود که هدفشان کشف دانش از داده‌ها است. به بیان ساده‌تر، فرآیند به‌کارگیری یک روش مبتنی بر کامپیوتر را که شامل تکنیک‌های نوین استخراج دانش از دل داده‌های خام است، داده‌کاوی می‌گویند.

داده‌کاوی یک فرآیند تکرارشونده است که شامل کشف دانش از طریق روش‌های خودکار یا دستی است که در یک چرخه انجام می‌شود تا در نهایت، اطلاعات قابل استناد استخراج شوند. داده‌کاوی به ویژه در سناریوهای تجزیه و تحلیل اکتشافی که هیچ مفهوم از پیش تعیین شده‌ای در مورد آن‌چه که قرار است در قالب نتایج به دست آیند، کاربرد دارد.

به‌طور مثال، با شروع یک بحران فراگیر ممکن است صنایعی نظیر نفت و گاز به چه فعل و انفعلاتی روبرو شوند. داده‌کاوی جست‌جو برای کشف اطلاعات جدید، ارزشمند و مستتر در حجم عظیمی از داده‌ها است که به تلاش و همکاری (Cooperative) مشترک انسان و کامپیوتر نیاز دارد. به همین دلیل، بهترین نتایج زمانی به دست می‌آیند که متخصصان بتوانند مشکلات و اهداف را به شکل دقیقی توصیف کنند و کامپیوترها بتوانند بر مبنای الگوهای کنکاش‌گر به جست‌وجوی اطلاعات بپردازند.

کارشناسان علم آمار و فناوری دو کاربرد یا به عبارت دقیق‌تر دو ترند اصلی برای داده‌کاوی تعریف کرده‌اند که شامل داده‌کاوی پیش‌بینانه (prediction datamining) و داده‌کاوی توصیفی (description data mining) است. شکل زیر مراحل انجام داده‌کاوی را نشان می‌دهد.

مراحلی که باید انجام شود تا داده‌کاوی به سرانجام برسد.

مراحلی که باید انجام شود تا داده‌کاوی به سرانجام برسد.

داده‌کاوی پیش‌بینانه

داده‌کاوی پیش‌بینانه/ پیش‌گویانه (predictive)، رویکرد پیش‌بینانه به معنای به‌کارگیری برخی متغیرها یا فیلدهای درون مجموعه داده‌ها با هدف پیش‌بینی تحولات ناشناخته زمان حال یا آینده یا شناسایی متغیرهایی است که ارزش اطلاعاتی دارند. در این‌جا واژه پیش‌گویانه (Prediction) به خروجی الگوریتمی اشاره دارد که پس از آموزش بر مبنای مجموعه‌های قبلی، بر مبنای دریافت مجموعه داده‌های جدید و به‌کارگیری آن‌ها به پیش‌بینی احتمالات خاص می‌پردازد.

به‌طور مثال، آیا ارزش سهام یک شرکت ممکن است در آینده سقوط کند یا بالاتر برود. بر این اساس، داده‌کاوی پیش‌گویانه به ساخت یک مدل سیستمی اشاره دارد که برخواسته از مجموعه داده‌هایی است که دریافت کرده است. در داده‌کاوی پیش‌گویانه هدف ساخت مدلی است که به عنوان یک کد اجرایی قابل استناد باشد و بتوان در فرآیندهایی نظیر طبقه‌بندی، پیش‌بینی، تخمین و وظایف این چنینی از آن استفاده کرد. شکل زیر تکنیک‌هایی که در داده‌کاوی پیش‌گویانه استفاده می‌شوند را نشان می‌دهد.

مدل‌های انجام داده‌کاوی پیش‌گویانه همراه با زیرمجموعه‌های آن‌ها

مدل‌های انجام داده‌کاوی پیش‌گویانه همراه با زیرمجموعه‌های آن‌ها

داده‌کاوی توصیفی

فرآیند داده‌کاوی توصیفی (Description)  روی پیدا کردن الگوهای توصیفی داده‌ها که می‌توانند توسط انسان‌ها تفسیر شوند متمرکز است. در این‌جا هدف ساخت، مدلی جدید و مبتنی بر اطلاعات غیر بدیهی (nontrivial) بر مبنای مجموعه داده‌های در دسترس است. در داده‌کاوی توصیفی هدف این است که با استفاده از الگوها و روابط حاکم بر بزرگ داده‌ها شناخت دقیقی در ارتباط با سیستمی که تحلیل شده به دست آید. شکل زیر وظایف داده‌کاوی در هر دو حالت توصیفی و پیش‌گویانه را نشان می‌دهد.

هر یک از مدل‌ها پیش‌گویانه و توصیفی مراحل خاص خود را دارند. در سمت راست تصویر مدل پیش‌گویانه و در سمت چپ مدل توصیفی و پیش‌گویانه را مشاهده می‌کنید.

هر یک از مدل‌های پیش‌گویانه و توصیفی، مراحل خاص خود را دارند. در سمت راست تصویر مدل پیش‌گویانه و در سمت چپ مدل توصیفی و پیش‌گویانه را مشاهده می‌کنید.

مدل‌های پیش‌گویانه و توصیفی در کاربردهای خاص داده‌کاوی به شکل قابل توجهی متفاوت از یکدیگر هستند. در هر دو حالت برای آن‌که بتوان از مزایای شاخص رویکردهای توصیفی و پیش‌بینانه بهره برد باید از تکنیک‌های داده‌کاوی که در مقاله‌های آینده به آن‌ها اشاره خواهد شد استفاده کرد.

مراحل تشکیل‌دهنده داده‌کاوی

برای آن‌که بتوان یک مدل پیش‌گویانه یا توصیفی کارآمد را پیاده‌سازی کرد، لازم است تا فرآیندهایی انجام شوند. در حالت کلی، برای انجام یک داده‌کاوی اولیه باید مراحل زیر بر مبنای مدل انتخاب شده به دقت اجرا شوند.

(طبقه‌بندی) Classification: یکی از فرآیندهای مهم داده‌کاوی است که عناصر موجود در یک مجموعه را به دسته‌ها یا کلاس‌های هدف اختصاص می‌دهد. هدف از طبقه‌بندی، پیش‌بینی دقیق کلاس هدفی است که داده‌ها باید عضو آن شوند. به‌طور مثال، یک مدل طبقه‌بندی می‌تواند برای شناسایی و برچسب‌گذاری متقاضیان وام بر مبنای ریسک اعتباری کم، متوسط یا زیاد انجام شود. به عبارت دقیق‌تر، چه افرادی در موعد پرداخت اقساط ممکن است در زمان تعیین شده اقساط را پرداخت کنند، برخی با چند روز تاخیر و برخی قادر به پرداخت اقساط نباشند.

(رگرسیون) Regression: رگرسیون یکی دیگر از عملکردهای مهم داده‌کاوی است که عددی را پیش‌بینی می‌کند. به‌طور مثال، یک مدل رگرسیون می‌تواند برای پیش‌بینی ارزش یک خانه بر مبنای موقعیت مکانی، تعداد اتاق‌ها، مساحت زمنی و سایر عوامل استفاده شود. یک فرآیند رگرسیون با مجموعه‌ای از داده‌ها آغاز می‌شود در آن مقادیر هدف شناخته شده هستند. در رگرسیون یک عنصر داده‌ای به یک متغیر پیش‌گویانه ارزش واقعی (real-value) نگاشت می‌شود.

(خوشه‌بندی) Clustering: یکی از فرآیندهای رایج در داده‌کاوی توصیفی است که در آن کارشناسی به دنبال شناسایی مجموعه‌ای محدود از دسته‌ها یا خوشه‌ها برای توصیف داده‌ها است.

خلاصه‌سازی (Summarization): یک وظیفه توصیفی اضافی است که شامل روش‌هایی برای شناسایی یک توصیف مختصر برای مجموعه‌ای از داده‌ها است.

مدل‌سازی وابستگی (Dependency Modeling): یافتن یک مدل محلی که وابستگی‌های قابل توجهی را میان متغیرها یا میان مقادیر یک ویژگی در یک مجموعه داده یا در بخشی از یک مجموعه داده توصیف می‌کند.

شناسایی تغییر و انحراف (Change and deviation detection): به کشف و شناسایی مهم‌ترین تغییرات اعمال شده در مجموعه داده‌ها اشاره دارد.

طبقه‌بندی‌ها و تعاریف مقدماتی که ارائه کردیم تنها برای آشنایی خوانندگان با پیچیدگی مفاهیم مرتبط با داده‌کاوی و قابلیت‌هایی که داده‌کاوی ارائه می‌کند ذکر شده است. در آموزش‌های آتی با استفاده از نمودارهای گرافیکی سعی خواهیم کرد به شکل جامع‌تری به توصیف مجموعه داده‌های پیچیده و بزرگ بپردازیم.

موفقیت در در پیاده‌سازی دقیق و درست یک فرآیند داده‌کاوی تا حد زیادی به دانش، خلاقیت و مدت زمانی که طراح صرف آموزش مدل می‌کند بستگی دارد. در حقیقت، در پاسخ به سؤال داده کاوی چیست باید بگوییم، داده‌کاوی شبیه به حل یک معما است. قطعات جداگانه پازل به خودی خود ساختار پیچیده‌ای ندارند. با این‌حال، زمانی که به عنوان یک مجموعه واحد در کنار یکدیگر قرار می‌گیرند، تشریح کننده سامانه‌ای بزرگ و جامع می‌شوند.

زمانی‌که برای اولین بار و بدون تجربه به سراغ تحلیل یک چنین سناریویی می‌روید و گام‌های اول را بر می‌دارید که شامل بررسی معما است، به احتمال زیاد احساس شکست می‌کنید، زیرا به درستی نمی‌دانید که باید چه کاری انجام دهید، نقطه شروع کجا است و به ترتیب باید چه گام‌هایی برداشته شوند. با این‌حال، وقتی بدانید چگونه با قطعات پازل کار کنید، متوجه می‌شوید کار آن‌چنان که نمود می‌کند سخت نیست. یک چنین قاعده‌ای بر دنیای داده‌کاوی نیز صدق می‌کند.

در ابتدای کار، طراحان فرآیند داده‌کاوی به احتمال زیاد اطلاعات زیادی در مورد منابع داده‌ای ندارند. اگر منابع در دسترس بودند، دیگر لزومی به انجام داده‌کاوی نبود، زیرا همه چیز به سادگی در دسترس قرار داشت و حتی انجام این فرآیند به شکل دستی امکان‌پذیر بود. به‌طور جداگانه‌، داده‌ها ساده، کامل و قابل توضیح به نظر می‌رسند.

با این‌حال، در حالت اجماع، آن‌ها مانند پازلی به نظر می‌رسند که کمی ترسناک و درک آن دشوار است. بنابراین، در یک پروژه داده‌کاوی، ضروری است که تحلیل‌گر و طراح، دانش دقیق و ذهن خلاقی داشته باشند و بتوانند مشکلات را از زوایای دیگری مشاهده کنند.

داده‌کاوی یکی از حوزه‌های روبه‌رشد فناوری‌اطلاعات است. به همین دلیل است که اهل فن پیش‌بینی کرده‌اند در چند سال آینده داده‌کاوی به سرعت به حوزه‌ها و صنایع دیگر وارد خواهد شد. یکی از بزرگ‌ترین نقاط قوت داده‌کاوی ارائه راه‌حل‌ها و تکنیک‌های منحصر به‌فردی است که می‌توانند برای حل مجموعه‌ای از مشکلات به کار گرفته شوند.

با توجه به این‌که داده‌کاوی فرآیندی است که به شکل یک کار عادی روی مجموعه‌ای عظیم از داده‌ها نظیر انبار داده‌ها و داده‌گاها (Data Mart) انجام می‌شود، بنابراین مشاغلی نظیر خرده‌فروشی‌های آنلاین، خطوط تولیدی کارخانجات، شرکت‌های مخابراتی، صنعت بهداشت و درمان، موسسات مالی و حمل و نقل از علاقه‌مندان به این حوزه هستند.