علم داده یکی از پر مخاطبترین مشاغل دنیای فناوری در قرن بیست و یکم است. هر صنعتی دارای ابهامات و نقاط مجهول زیادی است که پاسخ آنها در مفهومی بهنام کلان دادهها (Big Data) خلاصه شده است. از مشاغل دولتی گرفته تا شرکتهای خصوصی و موسسات پژوهشی، همگی این مشاغل حجم زیادی از اطلاعات را تولید میکنند که نیازمند پردازش و تحلیل هستند. حجم به ظاهر نامتناهی از اطلاعات وجود دارد که میتوان آنها را مرتب کرد، تفسیر کرد و برای طیف وسیعی از اهداف به کار برد.
چگونه یک کسب و کار میتواند دادههای خرید را برای پیادهسازی یک برنامه بازاریابی موفق سازماندهی کند؟ چگونه ادارات دولتی میتوانند از الگوهای رفتاری و اطلاعات مراجعان به شکل ناشناس برای بهبود خدمات اجتماعی جذاب استفاده کنند؟ چگونه یک شرکت تبلیغاتی میتواند از بودجه بازاریابی موجود به بهترین شکل برای ارتقاء عملیات بالقوه تجاری خود استفاده کند؟ تمای پاسخها به یک شغل و آن هم دانشمند داده (data scientist) بر میگردد.
دانشمند داده کیست؟
دانشمندان داده افرادی هستند که وظیفه جمعآوری، سازماندهی و تجزیه و تحلیل دادهها را دارند و به افراد شاغل در صنایع مختلف کمک میکنند تا وظایفشان را به بهترین شکل انجام دهند.
دانشمندان داده میتوانند پسزمینههای تحصیلی مختلفی داشته باشند و بر طیف گستردهای از مهارتهای فنی اشراف کامل داشته باشند. با اینحال، بخش عمدهای از این افراد دارای مدرک کارشناسی، کارشناسی ارشد یا دکترا در رشتههای مرتبط با علوم کامپیوتر، ریاضی و آمار دارند. بهطور معمول یک دانشمند داده برای انجام بهتر فعالیتهای خود باید در حوزه تجاری و به ویژه صنعتی که قصد ورود به آنرا دارد دانش کافی داشته باشد.
دانشمندان دادهها از تکنیکها و رشوهای مختلفی برای جمعآوری و تجزیه و تحلیل اطلاعات استفاده میکنند. دانشمندان داده ممکن است دادهها را در قالب محتوای بصری، مصورسازی (نمایش گرافیکی دادهها) و الگوهای دادهای واضح یا در قالب صفحات گسترده در نرمافزارهایی مثل اکسل ارائه کنند. هدف این است که اطلاعات به شکلی قابل درک برای افراد مختلف نشان داده شود.
دانشمندان داده اغلب الگوریتمهای بسیار پیشرفتهای ایجاد میکنند که برای تعیین الگوها، گرفتن دادهها از مجموعهای از اعداد و آمار، و استخراج آنچه میتواند برای یک کسبوکار یا سازمان مفید باشد، ایجاد میکنند.
علم داده در دنیای واقعی
برای آنکه دید روشنی در ارتباط با این عنوان شغلی داشته باشید، اجازه دهید به یک مثال ساده اشاره کنیم. فرض کنید یک شرکت فعال در زمینه گوشیهای هوشمند به دنبال کشف این موضوع است که کدام یک از مشتریان فعلی ممکن است به سراغ شرکت رقیب بروند. این شرکت میتواند یک تحلیلگر داده استخدام کند که طیف گستردهای از دادههای مختلف (یا بهطور خاص، الگوریتمی برای بررسی این دادهها ایجاد کند) مربوط به مشتریان را بررسی کند.
تحلیلگر داده یا دانشمند ممکن است کشف کند که مشتریانی که بیشتر از شبکههای سلولی استفاده میکنند، نیازمند یک گوشی هوشمند هستند که ظرفیت باتری بالایی داشته باشد و در ادامه متوجه میشود بخش عمدهای از مشتریان این شرکت در بازه سنی 35 تا 45 سال دارند و به همین دلیل ترجیح میدهند یک گوشی هوشمند که چنین سرویسی را به آنها ارائه میکند خریداری کنند. ارزیابی و تحلیل دادهها به شرکت تولیدکننده گوشی همراه کمک میکند برنامه تجاری یا محصولات تجاری خود را بهگونهای تغییر دهد تا مشتریان فعلی را جذب کرده و مشتریان جدیدی نیز به دست آورد.
یک نمونه واقعی دیگر در این زمین کاربران سایت نتفلیکس هستند که هر بار به حساب خود وارد میشوند، طیف گستردهای از پیشنهادات جذاب که متناسب با علاقه آنها است را مشاهده میکنند. سرویس پخش ویدیو دارای برنامه ای است که به شما پیشنهاداتی ارائه می دهد که به بهترین وجه مطابق با ترجیحات شما هستند. الگوریتمی با استفاده از اطلاعات سابقه مشاهده گذشته شما، توصیه هایی را برای نمایش هایی که ممکن است از آن لذت ببرید به شما می دهد. این امر در سرویسهایی مانند Pandora با دکمههای شست بالا و پایین و از آمازون با توصیههای خریدشان نیز دیده میشود.
علم داده در مقابل آمار
علم داده را نباید با آمار اشتباه گرفت. اگرچه این دو حوزه ترکیبی از مهارتهای مشابهی دارند و هر دو اهداف مشترکی را دنبال میکنند، (بهطور مثال، هر حجم زیادی از دادهها را برای دستیابی به نتیجه دلخواه استفاده میکنند)، اما تفاوتهایی نیز با یکدیگر دارند.
علم داده که یک رشته جدیدتر و مدرنتر است و به شدت مبتنی بر استفاده از رایانه و فناوری است. دانشمندان داده برای انجام فعالیتهای خود به بانکهای اطلاعاتی بزرگی نیاز دارند، از طریق کدنویسی اقدام به دستکاری دادهها میکنند و نتایج را در قالب نمودارها و چارتهای گرافیکی نشان میدهند.
در نقطه مقابل علم آمار بیشتر مبتنی بر نظریههای اثبات شده است و بیشتر بر آزمایش فرضیهها تاکید دارد. آمار یکی از علوم قدیمی است که قدمتی بیش از 100 سال دارد و در طول این سالها تغییرات کنی داشته است، در حالی که علم داده اساساً بر استفاده از رایانهها و بهکارگیری فناوریهای نوین کار میکند و دائما در حال تغییر است.
چگونه یک دانشمند داده شویم؟
بهطور کلی، سه مرحله برای تبدیل شدن به یک دانشمند داده وجود دارد که به شرح زیر است:
کسب مدرک لیسانس در رشتههایی مثل فناوری اطلاعات، علوم کامپیوتر، ریاضی، کسبوکار یا سایر رشتههای مرتبط؛
کسب مدرک کارشناسی ارشد در رشته علم دادهها یا رشتههای مرتبط؛
کسب تجربه در زمینهای که قصد دارید در آن کار کنید (مثلاً: مراقبتهای بهداشتی، فیزیک، تجارت).
کاندیدای خوب برای عنوان شغلی علم دادهها چه فردی است؟
ویژگیهای ممتاز یک دانشمند داده چیست؟ چگونه میتوانید مطمئن شویم که آیا دانش اولیه برای ورود به این حوزه را داریم یا خیر؟
بهطور معمول یک دانشمند داده ذهنی کنجکاو و پرسشگر دارد که به دنبال یادگیری مداوم است.
دانشمندان علاقهمند به این حوزه توانایی سازماندهی قوی دارند. همانطور که قبلاً گفتیم، دانشمندان داده با حجم بسیار زیادی از اطلاعات در ارتباط هستند، بنابراین باید توانایی سازماندهی درست و منطقی اطلاعات را داشته باشند.
علم داده گاهی اوقات میتواند پر استرس باشد، بنابراین باید روحیه قوی برای مقابله با سختیها داشته باشید. وقتی شرایط سخت میشود و به نظر میرسد که احتمالاً نمیتوان پاسخی برای این مشکل پیدا کرد، یک دانشمند داده خوب به سازماندهی مجدد، تجزیه و تحلیل مجدد و کار کردن روی دادهها ادامه میدهد به این امید که راهحل جدیدی را شناسایی کند.
از دیگر ویژگیهای شاخص این عنوان شغلی باید به خلاقیت، توانایی قوی برای متمرکز ماندن و دقت به جزئیات اشاره کرد.
چگونه یک دانشمند داده شویم؟
راههای زیادی برای ورود به این حوزه و تبدیل شدن به یک دانشمند داده متبحر در دسترس قرار دارد، اما تقریبا در همه مراحل نیازمند مدرک دانشگاهی هستید. به بیان دقیقتر، تقریباً غیرممکن است که بتوانید شغلی در این زمینه را بدون تحصیلات دانشگاهی کسب کنید. دانشمندان داده حداقل به مدرک لیسانس نیاز دارند، با این حال، به خاطر داشته باشید که 79٪ از متخصصان شاغل در صنعت دارای مدرک تحصیلات تکمیلی و 38٪ دارای مدرک دکترا هستند. اگر به دنبال یک موقعیت رهبری پیشرفته است، باید مدرک کارشناسی ارشد یا دکترا کسب کنید. بهطور کلی، مهارتهایی که یک دانشمند داده برای انجام وظایف خود به آنها نیاز دارد به شرح زیر است:
آمار و احتمال و جبر خطی
برنامهنویسی کامپیوتری با تسلط بر زبانهایی مثل آر و پایتون.
آشنایی با مباحث یادگیری ماشین
آشنایی با مباحث دادهکاوی
آشنایی با مبحث بصریسازی دادهها
آشنایی با ابزارهای قابل استفاده در این زمینه مثل PowerBI
آشنایی با سیستمهای مدیرت پایگاههای داده رابطهای و غیر رابطهای
تسلط بر مهارتهای مرتبط با استخراج دادهها از منابع درون سازمانی و وب (Scrapy، Apache Nutch و JSoup)
آشنایی با مباحث اولیه کلان داده و روشهای کار با آنها
توانایی کار با دادههای ساختار نیافته مثل دادهها متنی درون وبلاگها، شبکههای اجتماعی و…
آموزش (Education): همانگونه که اشاره شد، دانشمندان داده تحصیلات عالی دارند. 79٪ حداقل دارای مدرک کارشناسی ارشد و 38٪ دارای مدرک دکترا هستند. بهطور معمول، فارغالتحصیلان رشتههای تحصیلی ریاضیات و آمار (۳۲٪)، علوم کامپیوتر (۱۹٪) و رشتههای مهندسی فنی (۱۶٪) در صدر افرادی هستند که به این حوزه وارد میشوند. هر یک از رشتههای یاد شده، مهارتهای لازم برای کار با حجم گستردهای از دادهها و پردازش اطلاعات را به دانشجویان یاد میدهند. علاوه بر مدرک این رشتهها دانشمندان داده آموزشهای مربوط به ابزارهایی مثل هدوپ و تحلیل کلان دادهها را نیز یاد میگیرند.
برنامهنویسی (Programming): بهطور معمول زبانهای برنامهنویسی پایتون، آر و متلب ابزارهای اصلی دانشمندان داده هستند. ۴۳ درصد از دانشمندان داده برای حل مشکلات آماری از این زبانهای برنامهنویسی استفاده میکنند. برای حل هر مشکلی که در علم داده با آن روبرو میشوید زبانهای پایتون و آر راهحلهایی در اختیارتان قرار میدهند. با اینحال، پایتون یک زبان برنامهنویسی عالی برای دانشمندان داده است. به دلیل تطابقپذیری پایتون میتوانید از این زبان در ارتباط با جنبههای مختلف این شغل استفاده کنید.
زیرساخت هدوپ (Hadoop Platform): به عنوان یک دانشمند داده، ممکن است با شرایطی روبرو شوید که حجم دادههایی که در دسترس دارید از میزان فضای خالی حافظه اصلی فراتر رود یا نیاز به ارسال دادهها به سرورهای مختلف داشته باشید. این دقیقا همان مکانی است که هدوپ به کمک شما میآید. شما میتوانید از هدوپ برای ارسال دادهها به سامانهها، اکتشاف دادهها، پالایش دادهها و نمونهگیری (sampling) از دادهها استفاده کنید.
کدنویسی بانکاطلاعاتی (SQL Database/Coding): برای آنکه بتوانید با بانکهای اطلاعاتی کار کنید باید از زبان پرسوجوی ساخت یافته (SQL) استفاده کنید. این زبان به شما اجازه میدهد انواع مختلفی از محاورهها مثل اضافه کردن، حذف و استخراج داده از یک پایگاه داده را انجام دهید. این زبان برنامهنویسی به شما کمک میکند پرسوجوهای دقیقی را بنویسید و اطلاعاتی که نیاز دارید را از بانکهای اطلاعاتی دریافت کنید. به فرآیند دریافت اطلاعات از بانکهای اطلاعاتی برای کاربردهای مختلف واکشی (Fetching) گفته میشود. بنابراین برای ورود به این حوزه مجبور هستید دانش خود در ارتباط با SQL را ارتقا دهید.
آپاچی اسپارک (Apache Spark) :آپاچی اسپارک یک موتورِ قدرتمند، برای پردازش کلان دادهها در قالب توزیع شده است. اسپارک میتواند از سیستمهای مختلف ذخیرهسازی توزیع شده مثل HDFS یا Cassandra استفاده کند. اسپارک در مقایسه با هدوپ (Hadoop)، سریعتر است. علاوه بر این، توسط زبانهای برنامهنویسی مختلف مثل جاوا، پایتون؛ آر، اسکالا و SQL پشتیبانی میشود.
یادگیری ماشین و هوش مصنوعی (Machine Learning and AI): دانشمندان دادهها باید در حوزهرهایی مثل یادگیری ماشین و زیرشاخههای آن مثل یادگیری تقویتی مهارتهایی داشته باشند. دانشمندان دادهای که قصد انجام کارهای حرفهای را دارند در کنار مهارتهای مرتبط با این حوزه روی یادگیری موضوعات دیگری مثل یادگیری ماشین نظارت شده، درخت تصمیمگیری، رگرسیون و تمرکز میکنند. این کار به آنها کمک میکند تا راهحلهای کارآمدتری ارائه کنند.
مصورسازی دادهها (Data Visualization): در دنیای کسبوکار حجم زیادی از دادهها تولید میشود که امکان نشان دادن آنها به شکل آمار و ارقام روزمره چندان جالب نیست. بنابراین این دادهها باید قالببندی شوند تا درک آنها سادهتر شود. بهطور طبیعی، ما بهتر مفهوم تصاویر و دادههایی که در قالب نمودارها ارائه میشوند را درک میکنیم. به همین دلیل دانشمند داده باید در زمینه کار با ابزارهای مصورسازی مثل ggplot ، d3.js، Matplottlib و Tableau دانش کافی داشته باشند.
توانایی کار با دادههای فاقد ساختار(Unstructured data): متاسفانه بخش اعظمی از دادههایی که دانشمند داده باید با آنها کار کنند فاقد ساختار هستند. دادههای فاقد ساختار اشاره به نوعی از اطلاعات دارند که چارچوب خاص و مشخصی ندارند. بهطور مثال، شما میتوانید متون را در قالب رکوردهای اطلاعات در بانکهای اطلاعاتی ذخیره کنید و بعد روی آنها کار کنید. با اینحال، دادههای بدون ساختار عمدتا در فیلمها، پستهای وبلاگ، تصاویر، نظرات مشتریان، پستهای رسانههای اجتماعی، اصوات و غیره قرار دارند که امکان طبقهبندی آنها وجود ندارد.
مرتبسازی این نوع دادهها دشوار است و کار با آنها ساده نیست. بیشتر متخصصان به دلیل پیچیدگی این مدل دادههای بدون ساختار را سختترین کار دانشمندان داده میدانند و از اصطلاح تجزیه و تحلیل تاریک دادهها برای توصیف آنها استفاده میکنند. کار کردن با دادههای بدون ساختار به شما کمک میکند به بینشهای ارزشمندی دست پیدا کنید که برای تصمیمگیریها کمک فراوانی میکند.
ابزارها (Tools): ابزارهای گوناگونی برای جستوجو و تحلیل دادهها در اختیار قرار دارد که وظیفه دانشمندان داده را سادهتر میکند. از جمله این ابزارها میتوان به نرمافزارهای وکا (weka)، آیبیام اسپیاساس مدلر (IBM SPSS Modeler) و Rapid Miner اشاره کرد. آیا با وجود تسلط بر زبانهای برنامهنویسی، نیازی به یادگیری این ابزارها هست؟ بله. در این رابطه باید گفت که الزامی به اینکار وجود ندارد، اما گاهی استفاده از این ابزارها سرعت عمل را افزایش میدهد و برخی از آنها قابلیتهای خاصی برای کاوش در دادهها ارائه میکنند تا فرآیند دادهکاوی را سادهتر کنند. برای مثال، ابزار گوگل رفاین یا اپن رفاین (OpenRefine) امکانات گوناگونی برای پیشپردازش دادهها (پاکسازی، یکپارچهسازی و نگاشت) در اختیار کاربر قرار میدهد.
منبع:
https://www.geteducated.com/careers/how-to-become-a-data-scientist/