نویسنده: حمیدرضا تائبی
آموزش داده کاوی از این جهت مهم است که فناوریهای مدرن مرتبط با کامپیوترها، شبکهها و حسگرها روند جمعآوری و سازماندهی دادهها را بیش از اندازه پیچیده، طاقتفرسا و زمانگیر کردهاند. سازمانها به رغم دشواریها و پیچیدگیهای موجود، به جمعآوری و ضبط دادهها نیاز دارند، زیرا باید از اطلاعات پالایش شدهای که در اصطلاح تخصصی به آن بینش میگوییم برای اتخاذ تصمیمات راهبردی استفاده کنند.
بهطور سنتی، وظیفه استخراج اطلاعات مفید از دادههای ضبط شده بر عهده تحلیلگران است، با این حال، حجم فزاینده دادههای تولید شده در مشاغل و علوم مختلف بهکارگیری روشهای مبتنی بر کامپیوترهای شخصی را اجتنابناپذیر کرده است.
با توجه به اینکه مجموعههای دادهای از نظر اندازه و پیچیدگی رشد کردهاند، هیچ راهی وجود ندارد جز اینکه فرآیند تجزیهو تحلیل دادهها به شکل خودکار و توسط کامپیوترها انجام شود، زیرا در دنیای امروز یک تحلیلگر نمیتواند به تنهایی حجم بسیار گستردهای از بزرگدادههایی که روزانه تولید میشوند را تجزیه و تحلیل کند.
بهکارگیری ابزارها و متدولوژیهای پیچیدهای که همگی بر مبنای سامانههای کامپیوتری کار میکنند و تمامی آنها با اتکا بر تکنیکهای جدید سعی دارند الگوهای مستتر در دادهها را کشف کنند، در اصطلاح تخصصی دادهکاوی نامیده میشود.
اهمیت دادهکاوی از آنجا ناشی میشود که متوجه میشویم دنیای مدرن دنیایی مبتنی بر دادههاست. دادهها، اعداد و انواع دیگر اطلاعات، دنیای انسان امروزی را احاطه کرده و برای این که انسان بتواند بینش دقیقی از محیط پیرامون خود به دست آورد، به جمعآوری، تجزیه و پردازش دادهها نیاز دارد تا بتواند به اطلاعاتی دست پیدا کند که در تصمیمگیریها، پاسخ به رخدادها و انجام کارها به او کمک میکنند.
در عصر اینترنت، اینترانت، اینترنت اشیا، انبار دادهها و مراکز داده نرمافزار محور، الگوهای اصلی و کلاسیک تجزیهوتحلیل دادهها به سرعت در حال تغییر هستند. امروزه، مجموعههای بسیار بزرگی از دادهها که بزرگی برخی از آنها به میلیونها یا حتی چند صد میلیون رکورد منحصر به فرد میرسد، در انبارهای داده متمرکز، ذخیره شده و به تحلیلگران این امکان را میدهند تا رویکردهای مبتنی بر پردازش دادهها به شیوه هوشمند را برای بررسی جامعتر دادهها مورد استفاده قرار دهند.
کمیت این دادهها به سرعت در حال بزرگ و بزرگتر شدن است، زیرا منابع مختلفی دادهها را تولید میکنند و رسانههای ذخیرهسازی با ابعاد کم و ظرفیت بالا به وفور در اختیار سازمانها قرار دارند. فعالیتهای صنعتی، تجاری، مالی، بهداشتی و درمانی و پژوهشهای علمی همگی به اشکال مختلف در حال تولید دادهها هستند. به همین دلیل فناوری کارآمدی بهنام هوش مصنوعی نیاز داریم تا بتواند اطلاعات ارزشمند را از مجموعههای دادهای عظیم استخراج کند.
با اینحال، نکته حائز اهمیت، هوش مصنوعی است. هوش مصنوعی اصطلاحی کلی است که زیرمجموعههای مختلفی دارد. یادگیری ماشین با ناظر، بدون ناظر، تقویتی، دادهکاوی، بینایی ماشین، تشخیص دست، شناسایی الگوهای پنهان در فعالیتهای مخرب، همگی در زیرمجموعه این مفهوم قرار دارند.
در سالهای اخیر روشهایی که برای کشف دانش از دادههای خام ابداع شدهاند رشد انفجاری داشتهاند. با توجه به اینکه، قیمت کامپیوترهای شخصی در یک دهه گذشته کاهش پیدا کرده، قیمت حسگرها سیر نزولی به خود گرفته، ارتباطات سرعت بیشتری پیدا کردهاند، فناوری بانکهای اطلاعاتی (برای جمعآوری و ذخیرهسازی اطلاعات) پیشرفت داشتهاند و تعداد کارشناسان خبره که در کار کردن با ابزارهای تخصصی مهارت بالایی دارند، بیشتر شده است، جای تعجب نیست که شاهد ارائه الگوریتمها و روشهای مختلفی باشیم که همگی سعی در استخراج اطلاعات دارند.
در چند سال اخیر بر تعداد سازمانها و شرکتهایی که علاقهمند به مباحث هوش مصنوعی شدهاند، افزوده شده است، زیرا هوش مصنوعی این ظرفیت را دارد تا برگ برنده برنده شرکتها را در اختیارشان قرار دهد.
این علم در تعامل با فناوریهای قدرتمند دیگر به شرکتها اجازه میدهد تصمیمات تجاری هوشمندانهای اتخاذ کنند که الگوریتمهای هوشمند در پسزمینه این تصمیمات قرار داشتهاند.
مفهوم استخراج اطلاعات از درون مجموعههای دادهای و تبدیل اطلاعات به دانش و بینش قابل استفاده در حوزههای مختلف علم، از جمله، پزشکی حائز اهمیت است. همگرایی علوم و فناوریهای مربوطه فرصتی بی نظیر در ارتباط با استخراج و پردازش اطلاعات در اختیار جامعه پژوهشگران و شرکتها قرار داده است.
مؤسسه دانشبنیان دانش و فناوری بامداد ارائه میکند:
بوتکمپ برنامهنویسی پایتون با رویکرد یادگیری عمیق در بینایی ماشین
هدف از ارائه مقالات آموزش داده کاوی چیست؟
در سلسله مقالات آموزش هوش مصنوعی به دنبال آن هستیم که یک منبع اولیه و قابل استناد در اختیار دانشپژوهان قرار دهیم تا بتوانند به عنوان نقطه شروعی برای ورود به دنیای جذاب هوش مصنوعی از آن استفاده کنند و به جای آنکه برای دریافت اطلاعات اولیه موردنیاز خود به سراغ منابع مختلف بروند، از این مرجع فارسی استفاده کنند.
پیشنهاد مقاله: بازار کار هوش مصنوعی– چه طور به متخصص هوش مصنوعی بدل شویم؟
زمانی که این سری آموزشها پیشرفتهتر میشود، متوجه خواهید شد که مجموعهای از مهمترین روشها، ابزارها و الگوریتمهای هوشمند را در اختیار دارید که اجازه میدهند مدلهای هوشمند را آموزش دهید و در شبکههای اجتماعی، سایتها و وبلاگها اطلاعات موردنیاز مدل آموزشی خود را استخراج کنید.
زمانی که صحبت از دادهکاوی و یادگیری ماشین به میان میآید، شما ممکن است پیشزمینه یا مهارتهای مختلفی داشته باشید که باعث میشوند مفاهیم مربوط به این فناوری را به شکل سادهتری درک کنید. به عبارت دقیقتر، اگر مدرک دانشگاهی شما مرتبط با علوم کامپیوتر نیست، اما حداقل پیشزمینه لازم در حوزه ریاضیات یا آمار را دارید با کمی وقت بیشتر این شانس را دارید تا به وادی دادهکاوی و یادگیری ماشین وارد شوید.
این آموزش میتواند برای طیف گستردهای از خوانندگان از دانشآموزانی که مایل به یادگیری فرآیندها و تکنیکهای اساسی دادهکاوی و یادگیری ماشین هستند تا تحلیلگران و برنامهنویسانی که بهطور مستقیم در تیمهای بین رشتهای مرتبط با این مبحث به فعالیت اشتغال دارند، مفید واقع شود.
این سلسله مقالات آموزشی، به بررسی تکنیکهای پیشرفته تجزیه و تحلیل مقادیر عظیم دادههای خام در ابعاد بالا میپردازد که اجازه میدهند اطلاعات جدید و مفیدی که برای تصمیمگیریهای استراتژیک کاربرد دارند، به کار ببرید.
دقت کنید بخش عمدهای از تعاریف، طبقهبندیها و توضیحات مربوط به تکنیکهای موجود در این سلسله مقالات آموزشی، جدید نیستند و بر پایه فناوریها و الگوریتمهایی تعریف شدهاند که امروزه در دنیای علم استفاده میشوند. يكي از اهداف اصلي ما تمركز منظم و دقیق روی تمام مراحل یادگیری ماشین و داده کاوی و ارائه نمونههاي كافي در این زمینه است.
انتظار داریم نمونههایی که به دقت انتخاب شدهاند، استدلالها و رهنمودهای لازم در زمینه انتخاب و ساختار تکنیکها و ابزارهای موردنیاز مدلهای آموزشی را در اختیار خواننده قرار دهند. درک بهتر جزییات مربوط به تکنیکهایی که معرفی و پیادهسازی شدهاند به خواننده کمک میکند تا ابزارهای خاص خود را ایجاد کند یا ابزارها و روشهای موجود را بهبود ببخشد.
به عقیده اینجانب، در تدریس مباحثی نظیر یادگیری ماشین و دادهکاوی به جای آنکه روی جزییات فنی و نحوه استفاده از ابزارهای مختلف تمرکز شود باید بیشتر روی مفاهیم و ویژگیهای کاربردی تأکید شود. با وجود تمامی تبلیغاتی که منتشر میشوند واقعیت این است که ابزارها و نرمافزارها به تنهایی نمیتوانند هیچگاه راهحل کاملی ارائه کنند.
همواره به حضور کارشناسی نیاز است تا درباره اینکه چگونه فرآیندها باید طراحی شده و از چه ابزارهایی استفاده شود، تصمیمات مهمی را اتخاذ نماید. شناخت عمیق و دقیقتر روشها و مدلها، نحوه رفتار آنها و چرایی رفتار آنها اولین گام در استفاده کارآمد و موثر از این فناوری است.
نکتهای که هر محقق یا متخصصی باید به آن دقت کند این است که برای موفقیت در انجام کارها نباید خود را به روش خاصی محدود کند، بلکه بسته به پروژهای که پیش رو دارد باید از روشی خاصی برای به سرانجام رساندن پروژه استفاده کند. به عبارت دقیقتر، یک محقق باید محدودیتهای پیرامون روشها را درک کرده یا تکنیکهای جدیدی را توسعه دهد.
این سلسله مقالات آموزشی در تلاش است چنین شناختی در اختیار خوانندگان قرار دهد و در کنار آن به سراغ مباحث تخصصی و روشهای محبوب در زمینه آمار، یادگیری ماشین، گرافیک رایانهای، پایگاه داده، بازیابی اطلاعات، شبکههای عصبی، منطق فازی و محاسبات تکاملی برود.
در این سلسله مقالات آموزشی، چگونگی آمادهسازی بهترین محیط برای دادهکاوی را به شما آموزش میدهیم و در ادامه رویکردهایی را نشان میدهیم که در کشف الگوها، روندها و مدلهای مهم در مجموعه دادههای بزرگ حیاتی هستند.
انتظار ما این است که با مطالعه این سلسله مقالات آموزشی، خواننده بتواند فعالیتهای اساسی مرتبط با دادهکاوی را به نحوه موثری انجام دهد. اگرچه تمرکز ما روی فناوریهای ساده است، اما یکبار دیگر خاطر نشان میکنیم که فناوری به تنهایی قادر نیست یک راهحل کامل و کارآمد ارائه کند.
سعی ما بر این است که به جای ارائه وعدههای غیر واقعی و بیان وعدههای خیالی مبنی بر این که دادهکاوی ماشین کلید حل تمامی مشکلات است، به شما قابلیتها و توانمندهای واقعی این فناوری را نشان دهیم.
ما در ارتباط با فرآیندها و الگوریتمهایی که منجر به تولید نتایج قابل اعتماد و مفید در مدلهای یادگیری ماشین میشوند، اطلاعات کافی در اختیار شما قرار میدهیم. سعی ما بر این است که بدون جانبداری از یک محصول یا تکنیک خاص، راهکارهای مختلفی را که پیش روی خوانندگان قرار دارد، تشریح کنیم.
همواره به این نکته دقت کنید که توسعهدهنده یک مدل یادگیری ماشین مجبور است پیشینه و مهارت کافی در زمینه انتخاب روشها و ابزارهای نرمافزاری مناسب داشته باشد تا بتواند به عنوان یک متخصص در سازمانی مشغول به کار شود.
فهرست مباحث آموزش دادهکاوی
مقدمهای بر دادهکاوی
داده کاوی چه کاربردهایی دارد؟
عملکرد داده کاوی
طبقهبندی سیستمهای داده کاوی
پردازش داده کاوی
خلاصهای در ارتباط با اطلاعات توصیفی
پالایش دادهها به عنوان یک فرآیند
کاهش دادهها
گسستهسازی دادهها و سلسله مراتب مفهومی
انبار داده و فناوری OLAP
آشنایی با مفهوم انبار داده
سیستمهای پایگاه داده عملیاتی و انبارهای اطلاعات
مفهوم سلسله مراتب
معماری انبار داده
معماری سه لایه برای اطلاعات انبار
سیستمهای توزیع داده کاوی
ابزارهای تجزیه و تحلیل مورد استفاده برای داده کاوی
داده کاوی و یادگیری ماشین
یادگیری ماشین و آمار
برنامه های داده کاوی
الگوهای تکرار مکرر داده
الگوریتم رشد FP
الگوریتمهای پوشش متوالی
مدلسازی پیشبینی دادهها
روشهای معمول پیشبینی مدلسازی
فرضیات مدل رگرسیون
شبکههای عصبی
طبقهبندی و پیشبینی دادهها
رویکردهای حاکم بر طبقهبندی دادهها
مزایا و معایب روشهای بیزی
روشهای مرتبط با درخت تصمیم
شبکه های عصبی مصنوعی و تعامل آنها با داده کاوی
شبکههای استخراج دادههای عصبی
شبکه عصبی برای سریهای زمانی
استدلال مبتنی بر حافظه و فیلتر کردن دادههای مشترک
قوانین انجمن و تجزیه و تحلیل سبد بازار
تعریف تحلیلی از سبدهای بازار
کیفیت تجزیه و تحلیل داده ها
نظریه نمودارهای اساسی
تشخیص خودکار خوشهها در داده کاوی
خوشهبندی K-Means
مدل گوسی
پیشنهاد مقاله: راهنمای جامع شغل مهندس یادگیری ماشین
یادگیری مباحث مرتبط با هوش مصنوعی و دادهکاوی، دروازه ورود به دنیای مدرن است. اگر در گذشته یادگیری دادهکاوی و تسلط بر مباحث مرتبط با دادهکاوی و تحلیل دادهها یک انتخاب بود، با پیشرفتهای دنیای فناوری و تحول دیجیتالی سریع سازمانها و تمایل شرکتها به پیادهسازی الگوریتمهای هوشمند، این انتخاب به یک نیاز مبرم تبدیل شده است.
اگر شغل یا کسبوکار شما به نوعی با آموزش داده کاوی و استخراج اطلاعات با هدف دستیابی به بینشی که خطدهی استراتژیهای کسبوکار را مدیریت میکند، ارتباط دارد، یا اگر دانشپژوه یا علاقهمند به مباحث دادهکاوی و هوش مصنوعی هستید، یا اگر تمایل دارید در استارتآپهای مرتبط با مباحث هوش مصنوعی کار کنید، حتی اگر هیچ دانش فنی در ارتباط با مفاهیم دادهکاوی ندارید، این سلسله مقالات آموزشی، نقطه شروع خوبی برای شماست.
آموزشهای این دوره هماهنگ با تغییر و تحولات حاکم بر دنیای فناوری خواهند بود تا علاقهمندان، اطلاعات دقیقی در ارتباط با مبحث دادهکاوی بهدست آورند. همانگونه که اشاره کردیم، در این سری آموزشی قصد داریم به شما نشان دهیم که دادهکاوی چیست و چگونه باید از آن استفاده کنید.
بنای ما بر این است که سلسله مقالات آموزش هوش مصنوعی را به صورت دو روز در هفته، در وبسایت بامداد قرار دهیم. لطفاً ارتباط و تعامل خود را با ما حفظ کنید و نظرات ارزشمند خود را با ما به اشتراک بگذارید. بدیهیست نظرات شما عزیزان، انگیزهبخش بسیار قدرتمندیست که به ما انرژی داده و در ادامه این مسیر، مصممترمان میکند.
ادامه این مطلب را در مطلب آشنایی با مفاهیم بنیادین علم داده کاوی دنبال کنید.
يك ديدگاه
شروع این سلسله مطالب توی حوزه هوش مصنوعی و داده کاوی توسط بامداد خیلی اتفاق نیکوییست. سپاس آقای مهندس تائبی… سپاس بامدادیها…