نویسنده: حمیدرضا تائبی
آموزش داده کاوی از این جهت مهم است که فناوری‌های مدرن مرتبط با کامپیوترها، شبکه‌ها و حس‌گرها روند جمع‌آوری و سازمان‌دهی داده‌ها را بیش از اندازه پیچیده، طاقت‌فرسا و زمان‌گیر کر‌ده‌اند. سازمان‌ها به رغم دشواری‌ها و پیچیدگی‌های موجود، به جمع‌آوری و ضبط داده‌ها نیاز دارند، زیرا باید از اطلاعات پالایش شده‌ای که در اصطلاح تخصصی به آن بینش می‌گوییم برای اتخاذ تصمیمات راهبردی استفاده کنند.

به‌طور سنتی، وظیفه استخراج اطلاعات مفید از داده‌های ضبط شده بر عهده تحلیل‌گران است، با این حال، حجم فزاینده داده‌های تولید شده در مشاغل و علوم مختلف به‌کارگیری روش‌های مبتنی بر کامپیوترهای شخصی را اجتناب‌ناپذیر کرده است.

با توجه به این‌که مجموعه‌های داده‌ای از نظر اندازه و پیچیدگی رشد کرده‌اند، هیچ راهی وجود ندارد جز این‌که فرآیند تجزیه‌و تحلیل داده‌ها به شکل خودکار و توسط کامپیوترها انجام شود، زیرا در دنیای امروز یک تحلیل‌گر نمی‌تواند به تنهایی حجم بسیار گسترده‌ای از بزرگ‌داده‌هایی که روزانه تولید می‌شوند را تجزیه و تحلیل کند.

به‌کارگیری ابزارها و متدولوژی‌های پیچیده‌ای که همگی بر مبنای سامانه‌های کامپیوتری کار می‌کنند و تمامی آن‌ها با اتکا بر تکنیک‌های جدید سعی دارند الگوهای مستتر در داده‌ها را کشف کنند، در اصطلاح تخصصی داده‌کاوی نامیده می‌شود.

اهمیت داده‌کاوی از آن‌جا ناشی می‌شود که متوجه می‌شویم دنیای مدرن دنیایی مبتنی بر داده‌هاست. داده‌ها، اعداد و انواع دیگر اطلاعات، دنیای انسان‌ امروزی را احاطه کرده‌ و برای این که انسان بتواند بینش دقیقی از محیط پیرامون خود به دست آورد، به جمع‌آوری، تجزیه و پردازش داده‌ها نیاز دارد تا بتواند به اطلاعاتی دست پیدا کند که در تصمیم‌گیری‌ها، پاسخ به رخدادها و انجام کارها به او کمک می‌کنند.

در عصر اینترنت، اینترانت، اینترنت اشیا، انبار داده‌ها و مراکز داده‌ نرم‌افزار محور، الگوهای اصلی و کلاسیک تجزیه‌وتحلیل داده‌ها به سرعت در حال تغییر هستند. امروزه، مجموعه‌های بسیار بزرگی از داده‌ها که بزرگی برخی از آن‌ها به میلیون‌ها یا حتی چند صد میلیون رکورد منحصر به فرد می‌رسد، در انبارهای داده‌ متمرکز، ذخیره شده و به تحلیل‌گران این امکان را می‌دهند تا رویکردهای مبتنی بر پردازش داده‌ها به شیوه هوشمند را برای بررسی جامع‌تر داده‌ها مورد استفاده قرار دهند.

کمیت این داده‌ها به سرعت در حال بزرگ و بزرگ‌تر شدن است، زیرا منابع مختلفی داده‌ها را تولید می‌کنند و رسانه‌های ذخیره‌سازی با ابعاد کم و ظرفیت بالا به وفور در اختیار سازمان‌ها قرار دارند. فعالیت‌های صنعتی، تجاری، مالی، بهداشتی و درمانی و پژوهش‌های علمی همگی به اشکال مختلف در حال تولید داده‌ها هستند. به همین دلیل فناوری کارآمدی به‌نام هوش مصنوعی نیاز داریم تا بتواند اطلاعات ارزشمند را از مجموعه‌های داده‌ای عظیم استخراج کند.

با این‌حال، نکته حائز اهمیت، هوش مصنوعی است. هوش مصنوعی اصطلاحی کلی است که زیرمجموعه‌های مختلفی دارد. یادگیری ماشین با ناظر، بدون ناظر، تقویتی، داده‌کاوی، بینایی ماشین، تشخیص دست، شناسایی الگوهای پنهان در فعالیت‌های مخرب، همگی در زیرمجموعه این مفهوم قرار دارند.

در سال‌های اخیر روش‌هایی که برای کشف دانش از داده‌های خام ابداع شده‌اند رشد انفجاری داشته‌اند. با توجه به این‌که، قیمت کامپیوترهای شخصی در یک دهه گذشته کاهش پیدا کرده، قیمت حس‌گرها سیر نزولی به خود گرفته، ارتباطات سرعت بیشتری پیدا کرده‌اند، فناوری بانک‌های اطلاعاتی (برای جمع‌آوری و ذخیره‌سازی اطلاعات) پیشرفت داشته‌اند و تعداد کارشناسان خبره که در کار کردن با ابزارهای تخصصی مهارت بالایی دارند، بیشتر شده است، جای تعجب نیست که شاهد ارائه الگوریتم‌ها و روش‌های مختلفی باشیم که همگی سعی در استخراج اطلاعات دارند.

در چند سال اخیر بر تعداد سازمان‌ها و شرکت‌هایی که علاقه‌مند به مباحث هوش مصنوعی شده‌اند، افزوده شده است، زیرا هوش مصنوعی این ظرفیت را دارد تا برگ برنده برنده شرکت‌ها را در اختیارشان قرار دهد.

این علم در تعامل با فناوری‌های قدرتمند دیگر به شرکت‌ها اجازه می‌دهد تصمیمات تجاری هوشمندانه‌ای اتخاذ کنند که الگوریتم‌های هوشمند در پس‌زمینه این تصمیمات قرار داشته‌اند.
مفهوم استخراج اطلاعات از درون مجموعه‌های داده‌ای و تبدیل اطلاعات به دانش و بینش قابل استفاده در حوزه‌های مختلف علم، از جمله، پزشکی حائز اهمیت است. همگرایی علوم و فناوری‌های مربوطه فرصتی بی نظیر در ارتباط با استخراج و پردازش اطلاعات در اختیار جامعه پژوهشگران و شرکت‌ها قرار داده است.

هدف از ارائه مقالات آموزش هوش مصنوعی چیست؟

در سلسله مقالات آموزش هوش مصنوعی به دنبال آن هستیم که یک منبع اولیه و قابل استناد در اختیار دانش‌پژوهان قرار دهیم تا بتوانند به عنوان نقطه شروعی برای ورود به دنیای جذاب هوش مصنوعی از آن استفاده کنند و به جای آن‌که برای دریافت اطلاعات اولیه موردنیاز خود به سراغ منابع مختلف بروند، از این مرجع فارسی استفاده کنند.

زمانی که این سری آموزش‌ها پیشرفته‌تر می‌شود، متوجه خواهید شد که مجموعه‌ای از مهم‌ترین روش‌ها، ابزارها و الگوریتم‌های هوشمند را در اختیار دارید که اجازه می‌دهند مدل‌های هوشمند را آموزش دهید و در شبکه‌های اجتماعی، سایت‌ها و وبلاگ‌ها اطلاعات موردنیاز مدل آموزشی خود را استخراج کنید.

زمانی که صحبت از داده‌کاوی و یادگیری ماشین به میان می‌آید، شما ممکن است پیش‌زمینه یا مهارت‌های مختلفی داشته باشید که باعث می‌شوند مفاهیم مربوط به این فناوری را به شکل ساده‌تری درک کنید. به عبارت دقیق‌تر، اگر مدرک دانشگاهی شما مرتبط با علوم کامپیوتر نیست، اما حداقل پیش‌زمینه لازم در حوزه ریاضیات یا آمار را دارید با کمی وقت بیشتر این شانس را دارید تا به وادی داده‌کاوی و یادگیری ماشین وارد شوید.

این آموزش می‌تواند برای طیف گسترده‌ای از خوانندگان از دانش‌آموزانی که مایل به یادگیری فرآیندها و تکنیک‌های اساسی داده‌کاوی و یادگیری ماشین هستند تا تحلیل‌گران و برنامه‌نویسانی که به‌طور مستقیم در تیم‌های بین رشته‌ای مرتبط با این مبحث به فعالیت اشتغال دارند، مفید واقع شود.

این سلسله مقالات آموزشی، به بررسی تکنیک‌های پیشرفته تجزیه و تحلیل مقادیر عظیم داده‌های خام در ابعاد بالا می‌پردازد که اجازه می‌دهند اطلاعات جدید و مفیدی که برای تصمیم‌گیری‌های استراتژیک کاربرد دارند، به کار ببرید.

دقت کنید بخش عمده‌ای از تعاریف، طبقه‌بندی‌ها و توضیحات مربوط به تکنیک‌های موجود در این سلسله مقالات آموزشی، جدید نیستند و بر پایه فناوری‌ها و الگوریتم‌هایی تعریف شده‌اند که امروزه در دنیای علم استفاده می‌شوند. يكي از اهداف اصلي ما تمركز منظم و دقیق روی تمام مراحل یادگیری ماشین و داده کاوی و ارائه نمونه‌هاي كافي در این زمینه است.

انتظار داریم نمونه‌هایی که به دقت انتخاب شده‌اند، استدلال‌ها و رهنمودهای لازم در زمینه انتخاب و ساختار تکنیک‌ها و ابزارهای موردنیاز مدل‌های آموزشی را در اختیار خواننده قرار دهند. درک بهتر جزییات مربوط به تکنیک‌هایی که معرفی و پیاده‌سازی شده‌اند به خواننده کمک می‌کند تا ابزارهای خاص خود را ایجاد کند یا ابزارها و روش‌های موجود را بهبود ببخشد.

به عقیده اینجانب، در تدریس مباحثی نظیر یادگیری ماشین و داده‌کاوی به جای آن‌که روی جزییات فنی و نحوه استفاده از ابزارهای مختلف تمرکز شود باید بیشتر روی مفاهیم و ویژگی‌های کاربردی تأکید شود. با وجود تمامی تبلیغاتی که منتشر می‌شوند واقعیت این است که ابزارها و نرم‌افزارها به تنهایی نمی‌توانند هیچ‌گاه راه‌حل کاملی ارائه کنند.

همواره به حضور کارشناسی نیاز است تا درباره این‌که چگونه فرآیندها باید طراحی شده و از چه ابزارهایی استفاده شود، تصمیمات مهمی را اتخاذ نماید. شناخت عمیق و دقیق‌تر روش‌ها و مدل‌ها، نحوه رفتار آن‌ها و چرایی رفتار آن‌ها اولین گام در استفاده کارآمد و موثر از این فناوری است.

نکته‌ای که هر محقق یا متخصصی باید به آن دقت کند این است که برای موفقیت در انجام کارها نباید خود را به روش خاصی محدود کند، بلکه بسته به پروژه‌ای که پیش رو دارد باید از روشی خاصی برای به سرانجام رساندن پروژه استفاده کند. به عبارت دقیق‌تر، یک محقق باید محدودیت‌های پیرامون روش‌ها را درک کرده یا تکنیک‌های جدیدی را توسعه دهد.

این سلسله مقالات آموزشی در تلاش است چنین شناختی در اختیار خوانندگان قرار دهد و در کنار آن به سراغ مباحث تخصصی و روش‌های محبوب در زمینه آمار، یادگیری ماشین، گرافیک رایانه‌ای، پایگاه داده، بازیابی اطلاعات، شبکه‌های عصبی، منطق فازی و محاسبات تکاملی برود.

در این سلسله مقالات آموزشی، چگونگی آماده‌سازی بهترین محیط برای داده‌کاوی را به شما آموزش می‌دهیم و در ادامه رویکردهایی را نشان می‌دهیم که در کشف الگوها، روندها و مدل‌های مهم در مجموعه داده‌های بزرگ حیاتی هستند.

انتظار ما این است که با مطالعه این سلسله مقالات آموزشی، خواننده بتواند فعالیت‌های اساسی مرتبط با داده‌کاوی را به نحوه موثری انجام دهد. اگرچه تمرکز ما روی فناوری‌های ساده است، اما یکبار دیگر خاطر نشان می‌کنیم که فناوری به تنهایی قادر نیست یک راه‌حل کامل و کارآمد ارائه کند.

سعی ما بر این است که به جای ارائه وعده‌های غیر واقعی و بیان وعده‌های خیالی مبنی بر این که داده‌کاوی ماشین کلید حل تمامی مشکلات است، به شما قابلیت‌ها و توان‌مندهای واقعی این فناوری را نشان ‌دهیم.

ما در ارتباط با فرآیندها و الگوریتم‌هایی که منجر به تولید نتایج قابل اعتماد و مفید در مدل‌های یادگیری ماشین می‌شوند، اطلاعات کافی در اختیار شما قرار می‌دهیم. سعی ما بر این است که بدون جانب‌داری از یک محصول یا تکنیک خاص، راهکارهای مختلفی را که پیش روی خوانندگان قرار دارد، تشریح کنیم.

همواره به این نکته دقت کنید که توسعه‌دهنده یک مدل یادگیری ماشین مجبور است پیشینه و مهارت کافی در زمینه انتخاب روش‌ها و ابزارهای نرم‌افزاری مناسب داشته باشد تا بتواند به عنوان یک متخصص در سازمانی مشغول به کار شود.

فهرست مباحثی که قرار است ارائه شوند؟

مقدمه‌ای بر داده‌کاوی

داده کاوی چه کاربردهایی دارد؟

عملکرد داده کاوی

طبقه‌بندی سیستم‌های داده کاوی

​​پردازش داده کاوی

خلاصه‌ای در ارتباط با اطلاعات توصیفی

پالایش داده‌ها به عنوان یک فرآیند

کاهش داده‌ها

گسسته‌سازی داده‌ها و سلسله مراتب مفهومی

انبار داده و فناوری OLAP

آشنایی با مفهوم انبار داده

سیستم‌های پایگاه داده عملیاتی و انبارهای اطلاعات

مفهوم سلسله مراتب

معماری انبار داده

معماری سه لایه برای اطلاعات انبار

سیستم‌های توزیع داده کاوی

ابزارهای تجزیه و تحلیل مورد استفاده برای داده کاوی

داده کاوی و یادگیری ماشین

یادگیری ماشین و آمار

برنامه های داده کاوی

الگوهای تکرار مکرر داده

الگوریتم رشد FP

الگوریتم‌های پوشش متوالی

مدل‌سازی پیش‌بینی داده‌ها

روش‌های معمول پیش‌بینی مدل‌سازی

فرضیات مدل رگرسیون

شبکه‌های عصبی

طبقه‌بندی و پیش‌بینی داده‌ها

رویکردهای حاکم بر طبقه‌بندی داده‌ها

مزایا و معایب روش‌های بیزی

روش‌های مرتبط با درخت تصمیم

شبکه های عصبی مصنوعی و تعامل آن‌ها با داده کاوی

شبکه‌های استخراج داده‌های عصبی

شبکه عصبی برای سری‌های زمانی

استدلال مبتنی بر حافظه و فیلتر کردن داده‌های مشترک

قوانین انجمن و تجزیه و تحلیل سبد بازار

تعریف تحلیلی از سبدهای بازار

کیفیت تجزیه و تحلیل داده ها

نظریه نمودارهای اساسی

تشخیص خودکار خوشه‌ها در داده کاوی

خوشه‌بندی K-Means

مدل گوسی

یادگیری مباحث مرتبط با هوش مصنوعی و داده‌کاوی، دروازه ورود به دنیای مدرن است. اگر در گذشته یادگیری داده‌کاوی و تسلط بر مباحث مرتبط با داده‌کاوی و تحلیل داده‌ها یک انتخاب بود، با پیشرفت‌های دنیای فناوری و تحول دیجیتالی سریع سازمان‌ها و تمایل شرکت‌ها به پیاده‌سازی الگوریتم‌های هوشمند، این انتخاب به یک نیاز مبرم تبدیل شده است.

اگر شغل یا کسب‌وکار شما به نوعی با آموزش داده کاوی و استخراج اطلاعات با هدف دستیابی به بینشی که خط‌دهی استراتژی‌های کسب‌وکار را مدیریت می‌کند، ارتباط دارد، یا اگر دانش‌پژوه یا علاقه‌مند به مباحث داده‌کاوی و هوش مصنوعی هستید، یا اگر تمایل دارید در استارت‌آپ‌های مرتبط با مباحث هوش مصنوعی کار کنید، حتی اگر هیچ‌ دانش فنی در ارتباط با مفاهیم داده‌کاوی ندارید، این سلسله مقالات آموزشی، نقطه شروع خوبی برای شماست.

آموزش‌های این دوره هماهنگ با تغییر و تحولات حاکم بر دنیای فناوری خواهند بود تا علاقه‌مندان، اطلاعات دقیقی در ارتباط با مبحث داده‌کاوی به‌دست آورند. همان‌گونه که اشاره کردیم، در این سری آموزشی قصد داریم به شما نشان دهیم که داده‌کاوی چیست و چگونه باید از آن استفاده کنید.

بنای ما بر این است که سلسله مقالات آموزش هوش مصنوعی را به صورت دو روز در هفته، در وب‌سایت بامداد قرار دهیم. لطفاً ارتباط و تعامل خود را با ما حفظ کنید و نظرات ارزشمند خود را با ما به اشتراک بگذارید. بدیهیست نظرات شما عزیزان، انگیزه‌بخش بسیار قدرتمندیست که به ما انرژی داده و در ادامه این مسیر، مصمم‌ترمان می‌کند.

ادامه این مطلب را در مطلب آشنایی با مفاهیم بنیادین علم داده کاوی دنبال کنید.