برای این که بدانید داده کاوی چیست، لازم است بخش قبلی مطلب دادهکاوی را در این آدرس مطالعه کنید تا پیوستگی مطالب در ذهنتان ترتیب درستی داشته باشد.
دانش و مهندسی نوین بر مبنای بهکارگیری مدلهای زیربنایی اولیه به توصیف سامانههای فیزیکی، زیستی و اجتماعی میپردازد. سرآغاز چنین تحولی را میتوان با قوانین حرکت نیوتن یا معادلات ماکسول در الکترومغناطیس پیدا کرد که در ادامه کاربردهای مختلفی برای آنها در مهندسی مکانیک و برق ابداع شد.
در رویکرد فوق، دادههای تجربی برای بررسی مدلهای اولیه و زیربنایی و تخمینی در ارتباط با پارامترهایی که دستیابی به آنها گاهی اوقات غیرممکن یا دشوار است، مورد استفاده قرار میگیرد. با اینحال، در بسیاری از حوزهها، اصول اولیه، ناشناخته و مجهول هستند یا سامانههایی که باید مورد مطالعه قرار بگیرند بیش از اندازه پیچیده هستند که بتوان اصول زیربنایی آنها را به معادلات ریاضی تبدیل کرد.
رشد روزافزون بهکارگیری کامپیوترها در حوزههای مختلف باعث شد تا حجم گستردهای از دادهها توسط سامانهها تولید شود. در غیاب مدلهای بنیادین اولیه، اطلاعات جمعآوری شده توسط این سامانهها را میتوان برای ساخت نمونههای شبیهسازی شدهای مورد استفاده قرار داد که رابطه میان متغیرهای یک سامانه (وابستگیها و ورودی و خروجی ناشناخته) را نشان میدهند.
این نگرش باعث شد تا شاهد یک تغییر پارادیم از مدلسازی تجزیه و تحلیل کلاسیک مبتنی بر اصول اولیه به سمت توسعه مدلها و تجزیه و تحلیلهایی باشیم که برخواسته از دادهها هستند. اگر به اطراف و پیرامون خود نگاه کنید، کامپیوترها، شبکهها و تجهیزات خانگی را مشاهده میکنید که حجم عظیمی از دادهها را تولید میکنند. بر همین اساس است که آژانسهای دولتی و موسسات علمی منابع مالی هنگفتی را برای جمعآوری و ذخیرهسازی دادهها اختصاص دادهاند.
با اینحال، مقدار کمی از این دادهها قابل استفاده است، زیرا در بیشتر موارد، حجم دادههایی که باید مدیریت شوند بیش از اندازه بزرگ هستند یا ساختارهای دادهای بسیار پیچیدهای دارند که بتوان به شکل موثر آنها را تجریه و تحلیل کرد. چرا این اتفاق میافتد؟ پاسخ روشن است. تلاش برای مدیریت مجموعه بزرگی از دادهها به عوامل مختلفی از جمله، عملکرد تجهیزات ذخیرهساز، معماری که قرار است دادهها را از منابع اطلاعاتی واکشی کند و نحوه عملکرد معماری که برای تجزیه و تحلیل دادهها استفاده میشود بستگی دارد.
دادهکاوی چیست ؟
تقریبا تمامی صنایع، علوم و رشتههای مهندسی برای انجام بهتر فعالیتهای خود مجبورند ماهیت مجموعه دادههای بزرگ، پیچیده و غنی از اطلاعات را درک کنند. در دنیای تجارت، اطلاعات کسبوکار و مشتریان به عنوان داراییهای راهبردی (استرانژیک) شناخته میشوند.
توانایی استخراج دانش مفید نهان در این دادهها و عمل بر مبنای این دانش در دنیای رقابتی امروز بهطور فزایندهای حائز اهمیت شده است. دادهکاوی، فرآیند بهکارگیری روندها و الگوهای مبتنی بر کامپیوتر است که شامل تکنیکها و ابزارهای نوینی میشود که هدفشان کشف دانش از دادهها است. به بیان سادهتر، فرآیند بهکارگیری یک روش مبتنی بر کامپیوتر را که شامل تکنیکهای نوین استخراج دانش از دل دادههای خام است، دادهکاوی میگویند.
دادهکاوی یک فرآیند تکرارشونده است که شامل کشف دانش از طریق روشهای خودکار یا دستی است که در یک چرخه انجام میشود تا در نهایت، اطلاعات قابل استناد استخراج شوند. دادهکاوی به ویژه در سناریوهای تجزیه و تحلیل اکتشافی که هیچ مفهوم از پیش تعیین شدهای در مورد آنچه که قرار است در قالب نتایج به دست آیند، کاربرد دارد.
بهطور مثال، با شروع یک بحران فراگیر ممکن است صنایعی نظیر نفت و گاز به چه فعل و انفعلاتی روبرو شوند. دادهکاوی جستجو برای کشف اطلاعات جدید، ارزشمند و مستتر در حجم عظیمی از دادهها است که به تلاش و همکاری (Cooperative) مشترک انسان و کامپیوتر نیاز دارد. به همین دلیل، بهترین نتایج زمانی به دست میآیند که متخصصان بتوانند مشکلات و اهداف را به شکل دقیقی توصیف کنند و کامپیوترها بتوانند بر مبنای الگوهای کنکاشگر به جستوجوی اطلاعات بپردازند.
کارشناسان علم آمار و فناوری دو کاربرد یا به عبارت دقیقتر دو ترند اصلی برای دادهکاوی تعریف کردهاند که شامل دادهکاوی پیشبینانه (prediction datamining) و دادهکاوی توصیفی (description data mining) است. شکل زیر مراحل انجام دادهکاوی را نشان میدهد.
دادهکاوی پیشبینانه
دادهکاوی پیشبینانه/ پیشگویانه (predictive)، رویکرد پیشبینانه به معنای بهکارگیری برخی متغیرها یا فیلدهای درون مجموعه دادهها با هدف پیشبینی تحولات ناشناخته زمان حال یا آینده یا شناسایی متغیرهایی است که ارزش اطلاعاتی دارند. در اینجا واژه پیشگویانه (Prediction) به خروجی الگوریتمی اشاره دارد که پس از آموزش بر مبنای مجموعههای قبلی، بر مبنای دریافت مجموعه دادههای جدید و بهکارگیری آنها به پیشبینی احتمالات خاص میپردازد.
بهطور مثال، آیا ارزش سهام یک شرکت ممکن است در آینده سقوط کند یا بالاتر برود. بر این اساس، دادهکاوی پیشگویانه به ساخت یک مدل سیستمی اشاره دارد که برخواسته از مجموعه دادههایی است که دریافت کرده است. در دادهکاوی پیشگویانه هدف ساخت مدلی است که به عنوان یک کد اجرایی قابل استناد باشد و بتوان در فرآیندهایی نظیر طبقهبندی، پیشبینی، تخمین و وظایف این چنینی از آن استفاده کرد. شکل زیر تکنیکهایی که در دادهکاوی پیشگویانه استفاده میشوند را نشان میدهد.
دادهکاوی توصیفی
فرآیند دادهکاوی توصیفی (Description) روی پیدا کردن الگوهای توصیفی دادهها که میتوانند توسط انسانها تفسیر شوند متمرکز است. در اینجا هدف ساخت، مدلی جدید و مبتنی بر اطلاعات غیر بدیهی (nontrivial) بر مبنای مجموعه دادههای در دسترس است. در دادهکاوی توصیفی هدف این است که با استفاده از الگوها و روابط حاکم بر بزرگ دادهها شناخت دقیقی در ارتباط با سیستمی که تحلیل شده به دست آید. شکل زیر وظایف دادهکاوی در هر دو حالت توصیفی و پیشگویانه را نشان میدهد.
مدلهای پیشگویانه و توصیفی در کاربردهای خاص دادهکاوی به شکل قابل توجهی متفاوت از یکدیگر هستند. در هر دو حالت برای آنکه بتوان از مزایای شاخص رویکردهای توصیفی و پیشبینانه بهره برد باید از تکنیکهای دادهکاوی که در مقالههای آینده به آنها اشاره خواهد شد استفاده کرد.
مراحل تشکیلدهنده دادهکاوی
برای آنکه بتوان یک مدل پیشگویانه یا توصیفی کارآمد را پیادهسازی کرد، لازم است تا فرآیندهایی انجام شوند. در حالت کلی، برای انجام یک دادهکاوی اولیه باید مراحل زیر بر مبنای مدل انتخاب شده به دقت اجرا شوند.
(طبقهبندی) Classification: یکی از فرآیندهای مهم دادهکاوی است که عناصر موجود در یک مجموعه را به دستهها یا کلاسهای هدف اختصاص میدهد. هدف از طبقهبندی، پیشبینی دقیق کلاس هدفی است که دادهها باید عضو آن شوند. بهطور مثال، یک مدل طبقهبندی میتواند برای شناسایی و برچسبگذاری متقاضیان وام بر مبنای ریسک اعتباری کم، متوسط یا زیاد انجام شود. به عبارت دقیقتر، چه افرادی در موعد پرداخت اقساط ممکن است در زمان تعیین شده اقساط را پرداخت کنند، برخی با چند روز تاخیر و برخی قادر به پرداخت اقساط نباشند.
(رگرسیون) Regression: رگرسیون یکی دیگر از عملکردهای مهم دادهکاوی است که عددی را پیشبینی میکند. بهطور مثال، یک مدل رگرسیون میتواند برای پیشبینی ارزش یک خانه بر مبنای موقعیت مکانی، تعداد اتاقها، مساحت زمنی و سایر عوامل استفاده شود. یک فرآیند رگرسیون با مجموعهای از دادهها آغاز میشود در آن مقادیر هدف شناخته شده هستند. در رگرسیون یک عنصر دادهای به یک متغیر پیشگویانه ارزش واقعی (real-value) نگاشت میشود.
(خوشهبندی) Clustering: یکی از فرآیندهای رایج در دادهکاوی توصیفی است که در آن کارشناسی به دنبال شناسایی مجموعهای محدود از دستهها یا خوشهها برای توصیف دادهها است.
خلاصهسازی (Summarization): یک وظیفه توصیفی اضافی است که شامل روشهایی برای شناسایی یک توصیف مختصر برای مجموعهای از دادهها است.
مدلسازی وابستگی (Dependency Modeling): یافتن یک مدل محلی که وابستگیهای قابل توجهی را میان متغیرها یا میان مقادیر یک ویژگی در یک مجموعه داده یا در بخشی از یک مجموعه داده توصیف میکند.
شناسایی تغییر و انحراف (Change and deviation detection): به کشف و شناسایی مهمترین تغییرات اعمال شده در مجموعه دادهها اشاره دارد.
طبقهبندیها و تعاریف مقدماتی که ارائه کردیم تنها برای آشنایی خوانندگان با پیچیدگی مفاهیم مرتبط با دادهکاوی و قابلیتهایی که دادهکاوی ارائه میکند ذکر شده است. در آموزشهای آتی با استفاده از نمودارهای گرافیکی سعی خواهیم کرد به شکل جامعتری به توصیف مجموعه دادههای پیچیده و بزرگ بپردازیم.
موفقیت در در پیادهسازی دقیق و درست یک فرآیند دادهکاوی تا حد زیادی به دانش، خلاقیت و مدت زمانی که طراح صرف آموزش مدل میکند بستگی دارد. در حقیقت، در پاسخ به سؤال داده کاوی چیست باید بگوییم، دادهکاوی شبیه به حل یک معما است. قطعات جداگانه پازل به خودی خود ساختار پیچیدهای ندارند. با اینحال، زمانی که به عنوان یک مجموعه واحد در کنار یکدیگر قرار میگیرند، تشریح کننده سامانهای بزرگ و جامع میشوند.
زمانیکه برای اولین بار و بدون تجربه به سراغ تحلیل یک چنین سناریویی میروید و گامهای اول را بر میدارید که شامل بررسی معما است، به احتمال زیاد احساس شکست میکنید، زیرا به درستی نمیدانید که باید چه کاری انجام دهید، نقطه شروع کجا است و به ترتیب باید چه گامهایی برداشته شوند. با اینحال، وقتی بدانید چگونه با قطعات پازل کار کنید، متوجه میشوید کار آنچنان که نمود میکند سخت نیست. یک چنین قاعدهای بر دنیای دادهکاوی نیز صدق میکند.
در ابتدای کار، طراحان فرآیند دادهکاوی به احتمال زیاد اطلاعات زیادی در مورد منابع دادهای ندارند. اگر منابع در دسترس بودند، دیگر لزومی به انجام دادهکاوی نبود، زیرا همه چیز به سادگی در دسترس قرار داشت و حتی انجام این فرآیند به شکل دستی امکانپذیر بود. بهطور جداگانه، دادهها ساده، کامل و قابل توضیح به نظر میرسند.
با اینحال، در حالت اجماع، آنها مانند پازلی به نظر میرسند که کمی ترسناک و درک آن دشوار است. بنابراین، در یک پروژه دادهکاوی، ضروری است که تحلیلگر و طراح، دانش دقیق و ذهن خلاقی داشته باشند و بتوانند مشکلات را از زوایای دیگری مشاهده کنند.
دادهکاوی یکی از حوزههای روبهرشد فناوریاطلاعات است. به همین دلیل است که اهل فن پیشبینی کردهاند در چند سال آینده دادهکاوی به سرعت به حوزهها و صنایع دیگر وارد خواهد شد. یکی از بزرگترین نقاط قوت دادهکاوی ارائه راهحلها و تکنیکهای منحصر بهفردی است که میتوانند برای حل مجموعهای از مشکلات به کار گرفته شوند.
با توجه به اینکه دادهکاوی فرآیندی است که به شکل یک کار عادی روی مجموعهای عظیم از دادهها نظیر انبار دادهها و دادهگاها (Data Mart) انجام میشود، بنابراین مشاغلی نظیر خردهفروشیهای آنلاین، خطوط تولیدی کارخانجات، شرکتهای مخابراتی، صنعت بهداشت و درمان، موسسات مالی و حمل و نقل از علاقهمندان به این حوزه هستند.