یک دانشمند داده کیست و به چه مجموعه مهارت‌هایی نیاز دارد؟

علم داده یکی از پر مخاطب‌ترین مشاغل دنیای فناوری در قرن بیست و یکم است. هر صنعتی دارای ابهامات و نقاط مجهول زیادی است که پاسخ آن‌ها در مفهومی به‌نام کلان داده‌ها (Big Data) خلاصه شده است. از مشاغل دولتی گرفته تا شرکت‌های خصوصی و موسسات پژوهشی، همگی این مشاغل حجم زیادی از اطلاعات را تولید می‌کنند که نیازمند پردازش و تحلیل هستند. حجم به ظاهر نامتناهی از اطلاعات وجود دارد که می‌توان آن‌ها را مرتب کرد، تفسیر کرد و برای طیف وسیعی از اهداف به کار برد.

چگونه یک کسب و کار می‌تواند داده‌های خرید را برای پیاده‌سازی یک برنامه بازاریابی موفق سازمان‌دهی کند؟ چگونه ادارات دولتی می‌توانند از الگوهای رفتاری و اطلاعات مراجعان به شکل ناشناس برای بهبود خدمات اجتماعی جذاب استفاده کنند؟ چگونه یک شرکت تبلیغاتی می‌تواند از بودجه بازاریابی موجود به بهترین شکل برای ارتقاء عملیات بالقوه تجاری خود استفاده کند؟ تمای پاسخ‌ها به یک شغل و آن هم دانشمند داده (data scientist) بر می‌گردد.

دانشمند داده کیست؟

دانشمندان داده افرادی هستند که وظیفه جمع‌آوری، سازماندهی و تجزیه و تحلیل داده‌ها را دارند و به افراد شاغل در صنایع مختلف کمک می‌کنند تا وظایف‌شان را به بهترین شکل انجام دهند.

دانشمندان داده می‌توانند پس‌زمینه‌های تحصیلی مختلفی داشته باشند و بر طیف گسترده‌ای از مهارت‌های فنی اشراف کامل داشته باشند. با این‌حال، بخش عمده‌ای از این افراد دارای مدرک کارشناسی، کارشناسی ارشد یا دکترا در رشته‌های مرتبط با علوم کامپیوتر، ریاضی و آمار دارند. به‌طور معمول یک دانشمند داده برای انجام بهتر فعالیت‌های خود باید در حوزه تجاری و به ویژه صنعتی که قصد ورود به آن‌را دارد دانش کافی داشته باشد.

دانشمندان داده‌ها از تکنیک‌ها و رشو‌های مختلفی برای جمع‌آوری و تجزیه و تحلیل اطلاعات استفاده می‌کنند. دانشمندان داده ممکن است داده‌ها را در قالب محتوای بصری، مصورسازی (نمایش گرافیکی داده‌ها) و الگوهای داده‌ای واضح یا در قالب صفحات گسترده‌ در نرم‌افزارهایی مثل اکسل ارائه کنند. هدف این است که اطلاعات به شکلی قابل درک برای افراد مختلف نشان داده شود.

دانشمندان داده اغلب الگوریتم‌های بسیار پیشرفته‌ای ایجاد می‌کنند که برای تعیین الگوها، گرفتن داده‌ها از مجموعه‌ای از اعداد و آمار، و استخراج آن‌چه می‌تواند برای یک کسب‌وکار یا سازمان مفید باشد، ایجاد می‌کنند.

علم داده در دنیای واقعی

برای آن‌که دید روشنی در ارتباط با این عنوان شغلی داشته باشید، اجازه دهید به یک مثال ساده اشاره کنیم. فرض کنید یک شرکت فعال در زمینه گوشی‌های هوشمند به دنبال کشف این موضوع است که کدام یک از مشتریان فعلی ممکن است به سراغ شرکت رقیب بروند. این شرکت می‌تواند یک تحلیل‌گر داده استخدام کند که طیف گسترده‌ای از داده‌های مختلف (یا به‌طور خاص، الگوریتمی برای بررسی این داده‌ها ایجاد کند) مربوط به مشتریان را بررسی کند.

تحلیل‌گر داده یا دانشمند ممکن است کشف کند که مشتریانی که بیشتر از شبکه‌های سلولی استفاده می‌کنند، نیازمند یک گوشی هوشمند هستند که ظرفیت باتری بالایی داشته باشد و در ادامه متوجه می‌شود بخش عمده‌ای از مشتریان این شرکت در بازه سنی 35 تا 45 سال دارند و به همین دلیل ترجیح می‌دهند یک گوشی هوشمند که چنین سرویسی را به آنها ارائه می‌کند خریداری کنند. ارزیابی و تحلیل داده‌ها به شرکت تولیدکننده گوشی همراه کمک می‌کند برنامه تجاری یا محصولات تجاری خود را به‌گونه‌ای تغییر دهد تا مشتریان فعلی را جذب کرده و مشتریان جدیدی نیز به دست آورد.

یک نمونه واقعی دیگر در این زمین کاربران سایت نتفلیکس هستند که هر بار به حساب خود وارد می‌شوند، طیف گسترده‌ای از پیشنهادات جذاب که متناسب با علاقه آن‌ها است را مشاهده می‌کنند. سرویس پخش ویدیو دارای برنامه ای است که به شما پیشنهاداتی ارائه می دهد که به بهترین وجه مطابق با ترجیحات شما هستند. الگوریتمی با استفاده از اطلاعات سابقه مشاهده گذشته شما، توصیه هایی را برای نمایش هایی که ممکن است از آن لذت ببرید به شما می دهد. این امر در سرویس‌هایی مانند Pandora با دکمه‌های شست بالا و پایین و از آمازون با توصیه‌های خریدشان نیز دیده می‌شود.

علم داده در مقابل آمار

علم داده را نباید با آمار اشتباه گرفت. اگرچه این دو حوزه ترکیبی از مهارت‌های مشابهی دارند و هر دو اهداف مشترکی را دنبال می‌کنند، (به‌طور مثال، هر حجم زیادی از داده‌ها را برای دستیابی به نتیجه‌ دلخواه استفاده می‌کنند)، اما تفاوت‌هایی نیز با یکدیگر دارند.

علم داده که یک رشته جدیدتر و مدرن‌تر است و به شدت مبتنی بر استفاده از رایانه و فناوری است. دانشمندان داده برای انجام فعالیت‌های خود به بانک‌های اطلاعاتی بزرگی نیاز دارند، از طریق کدنویسی اقدام به دستکاری داده‌ها می‌کنند و نتایج را در قالب نمودارها و چارت‌های گرافیکی نشان می‌دهند.

در نقطه مقابل علم آمار بیشتر مبتنی بر نظریه‌های اثبات شده است و بیشتر بر آزمایش فرضیه‌ها تاکید دارد. آمار یکی از علوم قدیمی است که قدمتی بیش از 100 سال دارد و در طول این سال‌ها تغییرات کنی داشته است، در حالی که علم داده اساساً بر استفاده از رایانه‌ها و به‌کارگیری فناوری‌های نوین کار می‌کند و دائما در حال تغییر است.

چگونه یک دانشمند داده شویم؟

به‌طور کلی، سه مرحله برای تبدیل شدن به یک دانشمند داده وجود دارد که به شرح زیر است:

کسب مدرک لیسانس در رشته‌هایی مثل فناوری اطلاعات، علوم کامپیوتر، ریاضی، کسب‌وکار یا سایر رشته‌های مرتبط؛

کسب مدرک کارشناسی ارشد در رشته علم داده‌ها یا رشته‌های مرتبط؛

کسب تجربه در زمینه‌ای که قصد دارید در آن کار کنید (مثلاً: مراقبت‌های بهداشتی، فیزیک، تجارت).

کاندیدای خوب برای عنوان شغلی علم داده‌ها چه فردی است؟

ویژگی‌های ممتاز یک دانشمند داده چیست؟ چگونه می‌توانید مطمئن شویم که آیا دانش اولیه برای ورود به این حوزه را داریم یا خیر؟

به‌طور معمول یک دانشمند داده ذهنی کنجکاو و پرسش‌گر دارد که به دنبال یادگیری مداوم است.

دانشمندان علاقه‌مند به این حوزه توانایی سازمان‌دهی قوی دارند. همان‌طور که قبلاً گفتیم، دانشمندان داده با حجم بسیار زیادی از اطلاعات در ارتباط هستند، بنابراین باید توانایی سازمان‌دهی درست و منطقی اطلاعات را داشته باشند.

علم داده گاهی اوقات می‌تواند پر استرس باشد، بنابراین باید روحیه قوی برای مقابله با سختی‌ها داشته باشید. وقتی شرایط سخت می‌شود و به نظر می‌رسد که احتمالاً نمی‌توان پاسخی برای این مشکل پیدا کرد، یک دانشمند داده خوب به سازمان‌دهی مجدد، تجزیه و تحلیل مجدد و کار کردن روی داده‌ها ادامه می‌دهد به این امید که راه‌حل جدیدی را شناسایی کند.

از دیگر ویژگی‌های شاخص این عنوان شغلی باید به خلاقیت، توانایی قوی برای متمرکز ماندن و دقت به جزئیات اشاره کرد.

چگونه یک دانشمند داده شویم؟

راه‌های زیادی برای ورود به این حوزه و تبدیل شدن به یک دانشمند داده متبحر در دسترس قرار دارد، اما تقریبا در همه مراحل نیازمند مدرک دانشگاهی هستید. به بیان دقیق‌تر، تقریباً غیرممکن است که بتوانید شغلی در این زمینه را بدون تحصیلات دانشگاهی کسب کنید. دانشمندان داده حداقل به مدرک لیسانس نیاز دارند، با این حال، به خاطر داشته باشید که 79٪ از متخصصان شاغل در صنعت دارای مدرک تحصیلات تکمیلی و 38٪ دارای مدرک دکترا هستند. اگر به دنبال یک موقعیت رهبری پیشرفته است، باید مدرک کارشناسی ارشد یا دکترا کسب کنید. به‌طور کلی، مهارت‌هایی که یک دانشمند داده برای انجام وظایف خود به آن‌ها نیاز دارد به شرح زیر است:

آمار و احتمال و جبر خطی

برنامه‌نویسی کامپیوتری با تسلط بر زبان‌هایی مثل آر و پایتون.

آشنایی با مباحث یادگیری ماشین

آشنایی با مباحث داده‌کاوی

آشنایی با مبحث بصری‌سازی داده‌ها

آشنایی با ابزارهای قابل استفاده در این زمینه مثل PowerBI

آشنایی با سیستم‌های مدیرت پایگاه‌های داده رابطه‌‌ای و غیر رابطه‌ای

تسلط بر مهارت‌های مرتبط با استخراج داده‌ها از منابع درون سازمانی و وب (Scrapy، Apache Nutch و JSoup)

آشنایی با مباحث اولیه کلان داده و روش‌های کار با آن‌ها

توانایی کار با داده‌های ساختار نیافته مثل داده‌‌ها متنی درون وبلاگ‌ها، شبکه‌های اجتماعی و…

آموزش (Education): همان‌گونه که اشاره شد، دانشمندان داده تحصیلات عالی دارند.  79٪ حداقل دارای مدرک کارشناسی ارشد و 38٪ دارای مدرک دکترا هستند. به‌طور معمول، فارغ‌التحصیلان رشته‌های تحصیلی ریاضیات و آمار (۳۲٪)، علوم کامپیوتر (۱۹٪) و رشته‌های مهندسی فنی (۱۶٪) در صدر افرادی هستند که به این حوزه وارد می‌شوند. هر یک از رشته‌های یاد شده، مهارت‌های لازم برای کار با حجم گسترده‌ای از داده‌ها و پردازش اطلاعات را به دانشجویان یاد می‌دهند. علاوه بر مدرک این رشته‌ها دانشمندان داده آموزش‌های مربوط به ابزارهایی مثل هدوپ و تحلیل کلان داده‌ها را نیز یاد می‌گیرند.

برنامه‌نویسی (Programming): به‌طور معمول زبان‌های برنامه‌نویسی پایتون، آر و متلب ابزارهای اصلی دانشمندان داده هستند. ۴۳ درصد از دانشمندان داده برای حل مشکلات آماری از این زبان‌های برنامه‌نویسی استفاده می‌کنند. برای حل هر مشکلی که در علم داده با آن روبرو می‌شوید زبان‌های پایتون و آر راه‌حل‌هایی در اختیارتان قرار می‌دهند. با این‌حال، پایتون یک زبان برنامه‌نویسی عالی برای دانشمندان داده است. به دلیل تطابق‌پذیری پایتون می‌توانید از این زبان در ارتباط با جنبه‌های مختلف این شغل استفاده کنید.

زیرساخت هدوپ (Hadoop Platform): به عنوان یک دانشمند داده، ممکن است با شرایطی روبرو شوید که حجم داده‌هایی که در دسترس دارید از میزان فضای خالی حافظه‌ اصلی فراتر رود یا نیاز به ارسال داده‌ها به سرورهای مختلف داشته باشید. این دقیقا همان مکانی است که هدوپ به کمک شما می‌آید. شما می‌توانید از هدوپ برای ارسال داده‌ها به سامانه‌ها، اکتشاف داده‌ها، پالایش داده‌ها و نمونه‌گیری (sampling) از داده‌ها استفاده کنید.

کدنویسی بانک‌اطلاعاتی (SQL Database/Coding): برای آن‌که بتوانید با بانک‌های اطلاعاتی کار کنید باید از زبان پرس‌وجوی ساخت یافته (SQL) استفاده کنید. این زبان به شما اجازه می‌دهد انواع مختلفی از محاوره‌ها مثل اضافه کردن، حذف و استخراج داده از یک پایگاه داده را انجام دهید. این زبان برنامه‌نویسی به شما کمک می‌کند پرس‌وجوهای دقیقی را بنویسید و اطلاعاتی که نیاز دارید را از بانک‌های اطلاعاتی دریافت کنید. به فرآیند دریافت اطلاعات از بانک‌های اطلاعاتی برای کاربردهای مختلف واکشی (Fetching) گفته می‌شود. بنابراین برای ورود به این حوزه مجبور هستید دانش خود در ارتباط با SQL را ارتقا دهید.

آپاچی اسپارک (Apache Spark) :آپاچی اسپارک یک موتورِ قدرتمند، برای پردازش کلان داده‌ها در قالب توزیع شده است. اسپارک می‌تواند از سیستم‌های مختلف ذخیره‌سازی توزیع شده مثل HDFS یا Cassandra استفاده کند. اسپارک در مقایسه با هدوپ (Hadoop)، سریع‌تر است. علاوه بر این، توسط زبان‌های برنامه‌نویسی مختلف مثل جاوا، پایتون؛ آر، اسکالا و SQL پشتیبانی می‌شود.

یادگیری ماشین و هوش مصنوعی (Machine Learning and AI): دانشمندان داده‌ها باید در حوزهرهایی مثل یادگیری ماشین و زیرشاخه‌های آن مثل یادگیری تقویتی مهارت‌هایی داشته باشند. دانشمندان داده‌ای که قصد انجام کارهای حرفه‌ای را دارند در کنار مهارت‌های مرتبط با این حوزه روی یادگیری موضوعات دیگری مثل یادگیری ماشین نظارت شده، درخت تصمیم‌گیری، رگرسیون و تمرکز می‌کنند. این کار به آن‌ها کمک می‌کند تا راه‌حل‌های کارآمدتری ارائه کنند.

مصورسازی داده‌ها (Data Visualization): در دنیای کسب‌وکار حجم زیادی از داده‌ها تولید می‌شود که امکان نشان دادن آن‌ها به شکل آمار و ارقام روزمره چندان جالب نیست. بنابراین این داده‌ها باید قالب‌بندی شوند تا درک آن‌ها ساده‌تر شود. به‌طور طبیعی، ما بهتر مفهوم تصاویر و داده‌هایی که در قالب نمودارها ارائه می‌شوند را درک می‌کنیم. به همین دلیل دانشمند داده باید در زمینه کار با ابزارهای مصورسازی مثل ggplot ، d3.js، Matplottlib و Tableau دانش کافی داشته باشند.

توانایی کار با داده‌های فاقد ساختار(Unstructured data): متاسفانه بخش اعظمی از داده‌هایی که دانشمند داده باید با آن‌ها کار کنند فاقد ساختار هستند. داده‌های فاقد ساختار اشاره به نوعی از اطلاعات دارند که چارچوب خاص و مشخصی ندارند. به‌طور مثال، شما می‌توانید متون را در قالب رکوردهای اطلاعات در بانک‌های اطلاعاتی ذخیره کنید و بعد روی آن‌‌ها کار کنید. با این‌حال، داده‌های بدون ساختار عمدتا در فیلم‌ها، پست‌های وبلاگ، تصاویر، نظرات مشتریان، پست‌های رسانه‌های اجتماعی، اصوات و غیره قرار دارند که امکان طبقه‌بندی آن‌ها وجود ندارد.

مرتب‌سازی این نوع داده‌ها دشوار است و کار با آن‌ها ساده نیست. بیشتر متخصصان به دلیل پیچیدگی این مدل داده‌های بدون ساختار را سخت‌ترین کار دانشمندان داده می‌دانند و از اصطلاح تجزیه و تحلیل تاریک داده‌ها برای توصیف آن‌ها استفاده می‌کنند. کار کردن با داده‌های بدون ساختار به شما کمک می‌کند به بینش‌های ارزشمندی دست پیدا کنید که برای تصمیم‌گیری‌ها کمک فراوانی می‌کند.

ابزارها (Tools): ابزارهای گوناگونی برای جست‌وجو و تحلیل داده‌ها در اختیار قرار دارد که وظیفه دانشمندان داده را ساده‌تر می‌کند. از جمله این ابزارها می‌توان به نرم‌افزارهای وکا (weka)، آی‌بی‌ام اس‌پی‌اس‌اس مدلر (IBM SPSS Modeler) و Rapid Miner اشاره کرد. آیا با وجود تسلط بر زبان‌های برنامه‌نویسی، نیازی به یادگیری این ابزارها هست؟ بله. در این رابطه باید گفت که الزامی به این‌کار وجود ندارد، اما گاهی استفاده از این ابزارها سرعت عمل را افزایش می‌دهد و برخی از آن‌ها قابلیت‌های خاصی برای کاوش در داده‌ها ارائه می‌کنند تا فرآیند داده‌کاوی را ساده‌تر کنند. برای مثال، ابزار گوگل رفاین یا اپن رفاین (OpenRefine) امکانات گوناگونی برای پیش‌پردازش داده‌ها (‌پاک‌سازی، یکپارچه‌سازی و نگاشت) در اختیار کاربر قرار می‌دهد.

منبع:

https://www.geteducated.com/careers/how-to-become-a-data-scientist/

 

ثبت ديدگاه