تمام حقوق برای خط مهندسی محفوظ است
علم داده (Data Science) به مطالعه دقیق راهکارهایی میپردازد که یک سازمان را قادر میسازد از دریای عظیم دادههایی که در اختیار دارد اطلاعات ارزشمندی را استخراج کند. با کمک علم داده میتوانیم از میان حجم انبوه دادههای خام و نامنظمی که در اختیار داریم و آنها را با تحلیل، برنامهنویسی و مهارتهای کسب و کار پالایش کردهایم به بینش معناداری برسیم.
اهمیت علم داده: وضعیت فعلی
در دنیایی که بیش از پیش در حال تبدیل شدن به یک محیط دیجیتال است، سازمانها هر روز با حجم انبوهی از دادههای ساختاریافته ( structured ) و غیرساختاریافته ( unstructured ) در مقیاس زتابایت و یوتابایت دست و پنجه نرم میکنند. پیشرفت پیوسته فناوری، امکان ذخیرهسازی مقرونبهصرفهتر و هوشمندانهتر دادههای حیاتی را در اختیار ما قرار میدهد و این سبب شده است که جمعآوری و ذخیرهسازی دادهها توجیه بیشتری داشته باشد.
در سالهای اخیر، شاهد رشد فوقالعادهای در حوزه اینترنت اشیاء بودهایم بطوریکه بخش قابلتوجهی از دادههایی که امروز در دنیا تولید میشوند حاصل دستگاههای مبتنی بر اینترنت اشیاء هستند. روزانه ۲.۵ کوینتیلیون بایت داده تولید میشود و رشد اینترنت اشیاء تولید دادهها را تسریع کرده است.
این دادههای تولید شده منابع مختلفی دارند. حسگرهایی که در فروشگاههای بزرگ برای جمعآوری اطلاعات خریداران استفاده میشوند، مطالبی که بر روی بسترهای شبکههای اجتماعی منتشر میشوند، عکسها و ویدیوهای دیجیتالی که توسط موبایلها گرفته میشوند و تراکنشهای مالی که از طریق تجارت الکترونیک امکانپذیر شده است از جمله منابع تولید این حجم عظیم دادهها هستند که در اصطلاح به آن کلانداده (بیگ دیتا) گفته میشود.
با این اوصاف، شرکتها غرق در دریای دادهها هستند و در نتیجه برای آنها بسیار مهم است که با این انفجار دادهها چه کنند و چطور آنرا بکار گیرند.
بازار کار علم داده
در حال حاضر صنعت به متخصصان داده کارآزمودهای که مهارتشان مورد تأیید باشد نیاز فوقالعادهای دارد. این متخصصان از جمله پردرآمدترین شاغلان صنعت فناوری اطلاعات هستند. بنابر ادعای Forbes شاغلین حوزه علم داده در آمریکا با حقوق متوسط سالانه ۲۵۷ هزار دلار بهترین درآمد را در این کشور از آن خود کردهاند.
علاوه بر این با توجه به نیازمندیهای زیاد و روبهرشد، مؤسسه McKinsey پیشبینی کرده است که در سالهای آینده نیاز زیادی به متخصصان علم داده خواهیم داشت بطوریکه میان میزان تقاضا برای به خدمت گرفتن متخصصان داده و توانایی پاسخگویی به این نیاز، شکافی پنجاه درصدی را تجربه خواهیم کرد. این انگیزه خوبی است تا بیشتر به این موضوع بپردازیم که علم داده چیست؟
در اینجا میتوانیم مفهوم علم داده را بهتر درک کنیم. علم داده مهارتهای زیادی را به هم گره میزند؛ از آمار و ریاضیات گرفته تا دانش حوزه تجارت. این علم به سازمان کمک میکند تا هزینهها را کاهش دهد، به بازارهای جدید فکر کند، طیف مخاطبانش را گسترش دهد، بازاریابی و تبلیغات خود را سر و سامان دهد و محصولات و خدمات جدیدی عرضه کند. و این تنها بخشی از فهرست بلندبالای مزایای بهرهگیری از علم داده در دنیای امروز است. از این رو صرفنظر از اینکه چه محصول یا چه خدمتی عرضه میکنید، علم داده میتواند نقش اساسی در موفقیت سازمان شما داشته باشد.
بزرگان صنعت چطور از علم داده استفاده میکنند؟
در این بخش از آشنایی با علم داده، به بهرهگیری شرکتهای بزرگی نظیر گوگل، آمازون و ویزا ( Visa) از این علم نگاهی خواهیم انداخت. سازمانهای فعال در حوزه فناوری اطلاعات باید قادر به ساماندهی حجم زیاد دادههای خود باشند تا بتوانند منابع ارزش جدید را شناسایی کنند، از فرصتها بهتر استفاده کنند و امکان بالندگی خود و بهینهسازی فعالیتهایشان را بطور کارآمدی فراهم کنند. در اینجا سازمان برای تصمیمگیری باید بداند که کدام ارزش را از میان انبوه دادههایی که در اختیار دارد استخراج کند و اینکه چطور میتواند بطور مناسبی از آن بهره ببرد. در ادامه نگاهی به شرکتهای بزرگی میاندازیم که متخصصان داده را با حقوق درجه یک به خدمت میگیرند.
شرکت گوگل بزرگترین شرکتی است که علاقه زیادی به استخدام متخصصان کارآزموده علم داده دارد. از آنجاییکه فعالیت شرکت گوگل به ویژه این روزها بطور گستردهای بر محور علم داده، هوش مصنوعی و یادگیری ماشین میچرخد، دستمزدی که این شرکت برای تخصص علم داده کنار گذاشته است بسیار چشمگیر است.
شرکت آمازون که در زمینه تجارت الکترونیک فعالیتی جهانی دارد و غول رایانش ابری محسوب میشود نیز متخصصان علم داده را در مقیاس بسیار گستردهای به خدمت میگیرد. چنین شرکتی برای شناخت سلیقه مشتری و بهبود گسترش بازار ابری خود به متخصصان علم داده نیاز دارد.
ویزا بعنوان یک درگاه مالی آنلاین که بسیاری از شرکتها به آن مراجعه میکنند روزانه حجم بسیار بالایی تراکنش دارد. بر همین اساس برای ویزا بسیار اهمیت دارد که به منظور کسب سود بیشتر، شناسایی تراکنشهای جعلی و سفارشیسازی محصولات و خدمات برای هر مشتری و نظایر این، از متخصصان علم داده کمک بگیرد.
روند بکاریگیری علم داده
به منظور درک بهتر اینکه علم داده چیست، بد نیست در اینجا نگاهی به روند بکارگیری این علم در عمل بیندازیم. فرض کنیم آقای الف مالک یک خردهفروشی است و به دنبال یافتن راههایی است که فروش فروشگاه خود را ارتقا دهد. او برای دستیابی به این هدف باید این پرسشها را پاسخ دهد:
- از فروش کدام محصولات فروشگاه، سود بیشتری کسب خواهد کرد؟
- آیا تبلیغات درونفروشگاهی به درستی پیاده شدهاند؟
- آیا محصولات در فروشگاه بطور مناسبی چیده شدهاند؟
هدف اساسی آقای الف پاسخ دادن به این پرسشها است و کیفیت این پاسخها، تأثیر زیادی بر نتایج فعالیت او خواهد گذاشت. حالا او از شما بعنوان یک مختصص داده کمک میخواهد. اجازه دهید این مشکل را با بررسی روند بکارگیری علم داده حل کنیم.
دادهیابی (Data Discovery)
نخستین مرحله در فرآیند استفاده از علم داده، دادهیابی یا data discovery است. این مرحله شامل روشهایی برای یافتن داده از منابع مختلفی است که ممکن است قالبی ساختارمند ( unstructured ) نداشته باشند ( نظیر ویدیوها و عکسها ) و یا ساختارمند (structured ) باشند نظیر فایلهای متنی یا از پایگاه دادههای رابطهای بدست آمده باشند. سازمانها ممکن است برای درک بهتر افکار و سلیقه مشتریان خود، به دادههای بدست آمده از رسانههای اجتماعی مشتریان و نظایر آن نیز متوسل شوند.
در این مرحله هدف ما بعنوان یک متخصص داده، بهبود میزان فروش فروشگاه آقای الف است. از عوامل تأثیرگذار بر میزان فروش میتوان به این موارد اشاره کرد: مکان فروشگاه، کارکنان، ساعات کاری، تبلیغات، چیدمان محصولات، قیمت محصولات، مکان و نوع تبلیغات رقبا و مواردی از این دست. با درنظر داشتن این عوامل، میتوان دادههای موجود را پالایش کرده و از آنها برای تجزیه و تحلیل استفاده کرد. در انتهای این مرحله، همه دادههایی که عوامل ذکر شده را پوشش میدهند جمعآوری خواهیم کرد.
آمادهسازی دادهها
گام بعدی پس از گذر کردن از مرحله دادهیابی، آمادهسازی دادههاست. در این مرحله دادههای جمعآوری شده که ممکن است ناهمگون باشند (زیرا از منابع مختلفی بدست آمدهاند) را در یک قالب یکپارچه میریزیم تا بتوانیم بطور کارآمدتری با آنها کار کنیم. در این مرحله شاید به روشهای پیچیدهای برای اینکار نیاز باشد بطور مثال استفاده از روشهایی نظیر مدلسازی برای تعیین مقادیری که در دست نداریم.
پس از پالایش دادهها، گام بعدی تجمیع و نتیجهگیری از مجموعه دادهها به منظور استفاده در فرآیند تجزیه و تحلیل است. این شامل تجمیع دادهها به روشهایی نظیر ادغام چند جدول که مربوط به یک شی هستند ولی اطلاعات مختلفی در آنها ذخیره شده است یا بهرهگیری از انبوهش (aggregation) جداول (ترکیب اطلاعات و کاهش متغیرهای جداول به منظور مرتب شدن و ساختارمند شدن دادههای موجود) خواهد بود. علاوه بر این در این مرحله میتوانیم بررسی کنیم که چه الگوها و مقادیری از مجموعه دادهها (Data set) قابل استخراج است.
مدلهای ریاضی
در پس همه پروژههای علم داده، مدلهای ریاضی مشخصی وجود دارند. طراحی و پیادهسازی این مدلها توسط متخصصان علم داده و به منظور تأمین نیازهای خاص کسب و کار مورد نظر انجام میشود. در این مسیر ممکن است از حوزههای مختلف ریاضی نظیر آمار، رگرسیون خطی و رگرسیون لجستیک، حساب دیفرانسیل و انتگرال و نظایر آن کمک گرفته شود. ابزارهای متنوعی در این فرآیند به کمک میآیند نظیر ابزارهای محاسبات آماری R، زبان برنامهنویسی پایتون، ابزارهای پیشرفته تجزیه و تحلیل SAS و SQL و انواع ابزارهای مصورسازی داده ( visualization) نظیر Tableau و QlikView.
باید توجه داشت که به منظور دستیابی به نتیجه رضایتبخش، ممکن است یک مدل ریاضی کفایت نکند و نیاز به استفاده از دو یا تعداد بیشتری مدل باشد. در چنین حالتی، یک متخصص علم داده، گروهی از مدلها را پیاده میکند. پس از ارزیابی مدلها او پارامترها را اصلاح کرده و دوباره تنظیم میکند. این روند آنقدر ادامه مییابد تا متخصص علم داده کاملاً مطمئن شود که مناسبترین مدل را یافته است. در این مرحله شما بعنوان یک متخصص علم داده مدلهای ریاضی را بر اساس نیازهای کسب و کار آقای الف یافتهاید. چنین مدلی میتواند پاسخگوی پرسشهایی نظیر این باشد که کدام محصول عرضه شده در این مغازه بیشترین سوددهی را خواهد داشت یا آیا چیدمان کالاها در فروشگاه به درستی انجام شده است یا خیر.
استفاده از آنچه بدست آوردهایم در عمل
پس از آماده شدن دادهها و پیادهسازی مدلها، حالا زمان آن رسیده است که از این مدلها برای دستیابی به هدفمان استفاده کنیم. در این مرحله هم ممکن است نیاز به رفع اشکالات احتمالی داشته باشیم و مدل نیازمند تنظیم و بهینهسازی باشد. در اینجا با ارزیابی مدل میتوان درکی از عملکرد آن بدست آورد. شما بعنوان یک متخصص علم داده در این مرحله بر اساس نیازهای کسب و کار آقای الف به جمعآوری اطلاعات و استخراج نتایج میپردازید.
عرضه یافتهها به سازمان
حالا میرسیم به آخرین مرحله و در عین حال یکی از مراحل مهم در مسیر استفاده از علم داده. در این مرحله متخصص علم داده باید در نقش رابطی بین گروههای مختلف سازمان ظاهر شود و این توانایی را داشته باشد که بطور روشن و صریح یافتههایش را در اختیار سهامداران اصلی و تصمیمگیران سازمان قرار دهد. اهمیت این موضوع از این جهت است که سازمان، هدفگذاری خود را بر اساس توصیههای متخصص علم داده خواهد چید. در مثال ما، شما بر اساس آنچه از دادهها بدست آوردهاید با صاحب کسب و کار ارتباط برقرار خواهید کرد و تغییرات معینی را در استراتژی کسب و کار پیشنهاد خواهید کرد چنانکه آقای الف بتواند بیشترین سود را کسب کند.
اجزای علم داده
حالا که به اینجا رسیدیم بد نیست نگاهی به برخی از اجزای اصلی علم داده بیندازیم:
داده و انواعش
اساس علم داده، مجموعه دادههای خام است. این دادهها انواع مختلفی دارند نظیر دادههای ساختاریافته ( که عموماً در قالب جداول هستند) و دادههای غیرساختاریافته (نظیر عکسها و ویدیوها و ایمیلها و فایلهای پیدیاف).
برنامهنویسی (پایتون و R)
مدیریت داده و تجزیه و تحلیل آن با کمک برنامهنویسی کامپیوتری انجام میشود. در علم داده دو زبان برنامهنویسی پایتون و R از محبوبیت زیادی برخوردار هستند.
آمار و احتمال
دادهها به منظور استخراج اطلاعات، دستکاری میشوند. آمار و احتمال، بازوی ریاضی علم داده است. بدون دانش کافی در زمینه آمار و احتمالات، امکان بسیار زیادی وجود دارد که دادهها به اشتباه تفسیر شوند و نتیجهگیریها به بیراهه بروند. به همین دلیل است که آمار و احتمال جایگاه بسیار مهمی در علم داده دارد.
یادگیری ماشین
بعنوان یک متخصص علم داده، هر روز از الگوریتمهای یادگیری ماشین نظیر روشهای رگرسیون (regression) و طبقهبندی (classification) استفاده میکنید. برای یک متخصص علم داده آگاهی از یادگیری ماشین بسیار اهمیت دارد چراکه بخش مهمی از این حرفه است. یادگیری ماشین به متخصص علم داده این امکان را میدهد تا از میان دادههای موجود، به پیشبینیهای باارزشی برسد.
کلان داده
در دنیای امروز دادههای خام از نظر ارزش با نفت خام مقایسه میشود. همانطور که ما با پالایش نفت خام میتوانیم محصولات مختلفی را به دست آوریم، با کمک علم داده هم میتوانیم انواع مختلفی از اطلاعات را از دادههای خام استخراج کنیم. در علم داده برای پردازش کلان دادهها از ابزارهای مختلفی استفاده میشود نظیر Java و Hadoop و R و Pig و Apache Spark و … .