خط مهندسی
مجله ی آنلاین مهندسی

علم داده چیست؟

0 196
از علم داده بعنوان جذاب‌ترین فرصت شغلی قرن بیست و یکم یاد شده است. در دنیای امروز داده‌های خام از نظر ارزش اقتصادی با نفت خام مقایسه می‌شوند. امروزه اگر سازمان‌ها به‌ویژه آن‌هایی که کسب و کار دیجیتال دارند از قدرت داده‌ها حتی در یک بازه زمانی کوتاه غافل شوند به راحتی جایگاه خود را در بازار رقابت از دست خواهند داد.
علم داده به سازمان‌ها کمک می‌کند تا درکی صحیح و همه‌جانبه از مشتریان خود، بازار و کسب و کار بدست‌ آورند. در دنیایی که با داده‌ها احاطه شده‌ است، استخراج اطلاعات مفید و کارآمد از این داده‌ها، به معنی برتری در بازار رقابت است و متخصصان علم داده، در استخراج این اطلاعات به سازمان‌ها و شرکت‌ها کمک می‌کنند.
متخصص علم داده باید آنقدر در کار خود مهارت داشته باشد که بتواند آنچه سبب برتری مشتری در بازار رقابت می‌شود را از داده‌ها بیرون بکشد. در این مطلب سعی می‌کنیم به علم داده و جایگاه آن در دنیای امروز و ویژگی‌هایش نگاهی بیندازیم.

علم داده (Data Science) به مطالعه دقیق راهکارهایی می‌پردازد که یک سازمان را قادر می‌سازد از دریای عظیم داده‌هایی که در اختیار دارد اطلاعات ارزشمندی را استخراج کند. با کمک علم داده می‌توانیم از میان حجم انبوه داده‌های خام و نامنظمی که در اختیار داریم و آن‌ها را با تحلیل، برنامه‌نویسی و مهارت‌های کسب و کار پالایش کرده‌ایم به بینش معناداری برسیم.

اهمیت علم داده: وضعیت فعلی

در دنیایی که بیش از پیش در حال تبدیل شدن به یک محیط دیجیتال است، سازمان‌ها هر روز با حجم انبوهی از داده‌های ساختاریافته ( structured ) و غیرساختاریافته ( unstructured ) در مقیاس زتابایت و یوتابایت دست و پنجه نرم می‌کنند. پیشرفت پیوسته فناوری، امکان ذخیره‌سازی مقرون‌به‌صرفه‌تر و هوشمندانه‌تر داده‌های حیاتی را در اختیار ما قرار می‌دهد و این سبب شده است که جمع‌آوری و ذخیره‌سازی داده‌ها توجیه بیشتری داشته باشد.

در سال‌های اخیر، شاهد رشد فوق‌العاده‌ای در حوزه اینترنت اشیاء بوده‌ایم بطوریکه بخش قابل‌توجهی از داده‌هایی که امروز در دنیا تولید می‌شوند حاصل دستگاه‌های مبتنی بر اینترنت اشیاء هستند. روزانه ۲.۵ کوینتیلیون بایت داده تولید می‌شود و رشد اینترنت اشیاء تولید داده‌ها را تسریع کرده است.

این داده‌های تولید شده منابع مختلفی دارند. حسگرهایی که در فروشگاه‌های بزرگ برای جمع‌آوری اطلاعات خریداران استفاده می‌شوند، مطالبی که بر روی بسترهای شبکه‌های اجتماعی منتشر می‌شوند، عکس‌ها و ویدیوهای دیجیتالی که توسط موبایل‌‌ها گرفته می‌شوند و تراکنش‌های مالی که از طریق تجارت الکترونیک امکان‌پذیر شده است از جمله منابع تولید این حجم عظیم داده‌ها هستند که در اصطلاح به آن کلان‌داده (بیگ دیتا) گفته می‌شود.

با این اوصاف، شرکت‌ها غرق در دریای داده‌ها هستند و در نتیجه برای آن‌ها بسیار مهم است که با این انفجار داده‌ها چه کنند و چطور آنرا بکار گیرند.

بازار کار علم داده

در حال حاضر صنعت به متخصصان داده کارآزموده‌ای که مهارت‌شان مورد تأیید باشد نیاز فوق‌العاده‌ای دارد. این متخصصان از جمله پردرآمدترین شاغلان صنعت فناوری اطلاعات هستند. بنابر ادعای Forbes شاغلین حوزه علم داده در آمریکا با حقوق متوسط سالانه ۲۵۷ هزار دلار بهترین درآمد را در این کشور از آن خود کرده‌اند.

علاوه بر این با توجه به نیازمندی‌های زیاد و روبه‌رشد، مؤسسه McKinsey پیش‌بینی کرده است که در سال‌های آینده نیاز زیادی به متخصصان علم داده خواهیم داشت بطوریکه میان میزان تقاضا برای به خدمت گرفتن متخصصان داده و توانایی پاسخگویی به این نیاز، شکافی پنجاه درصدی را تجربه خواهیم کرد. این انگیزه‌ خوبی است تا بیشتر به این موضوع بپردازیم که علم داده چیست؟

در اینجا می‌توانیم مفهوم علم داده را بهتر درک کنیم. علم داده مهارت‌های زیادی را به هم گره می‌زند؛ از آمار و ریاضیات گرفته تا دانش حوزه تجارت. این علم به سازمان کمک می‌کند تا هزینه‌ها را کاهش دهد، به بازارهای جدید فکر کند، طیف مخاطبانش را گسترش دهد، بازاریابی و تبلیغات خود را سر و سامان دهد و محصولات و خدمات جدیدی عرضه کند. و این تنها بخشی از فهرست بلندبالای مزایای بهره‌گیری از علم داده در دنیای امروز است. از این رو صرفنظر از اینکه چه محصول یا چه خدمتی عرضه می‌کنید، علم داده می‌تواند نقش اساسی در موفقیت سازمان شما داشته باشد.

کاربردهای علم داده

بزرگان صنعت چطور از علم داده استفاده می‌کنند؟

در این بخش از آشنایی با علم داده، به بهره‌گیری شرکت‌های بزرگی نظیر گوگل، آمازون و ویزا ( Visa) از این علم نگاهی خواهیم انداخت. سازمان‌های فعال در حوزه فناوری اطلاعات باید قادر به سامان‌دهی حجم زیاد داده‌های خود باشند تا بتوانند منابع ارزش جدید را شناسایی کنند، از فرصت‌ها بهتر استفاده کنند و امکان بالندگی خود و بهینه‌سازی فعالیت‌هایشان را بطور کارآمدی فراهم کنند. در اینجا سازمان برای تصمیم‌گیری باید بداند که کدام ارزش را از میان انبوه داده‌هایی که در اختیار دارد استخراج کند و اینکه چطور می‌تواند بطور مناسبی از آن بهره ببرد. در ادامه نگاهی به شرکت‌های بزرگی می‌اندازیم که متخصصان داده را با حقوق درجه یک به خدمت می‌گیرند.

شرکت گوگل بزرگترین شرکتی است که علاقه‌ زیادی به استخدام متخصصان کارآزموده علم داده دارد. از آنجاییکه فعالیت شرکت گوگل به ویژه این روزها بطور گسترده‌ای بر محور علم داده، هوش مصنوعی و یادگیری ماشین می‌چرخد، دستمزدی که این شرکت برای تخصص علم داده کنار گذاشته است بسیار چشمگیر است.

شرکت آمازون که در زمینه تجارت الکترونیک فعالیتی جهانی دارد و غول رایانش ابری محسوب می‌شود نیز متخصصان علم داده را در مقیاس بسیار گسترده‌ای به خدمت می‌گیرد. چنین شرکتی برای شناخت سلیقه مشتری و بهبود گسترش بازار ابری خود به متخصصان علم داده نیاز دارد.

ویزا بعنوان یک درگاه مالی آنلاین که بسیاری از شرکت‌ها به آن مراجعه می‌کنند روزانه حجم بسیار بالایی تراکنش دارد. بر همین اساس برای ویزا بسیار اهمیت دارد که به منظور کسب سود بیشتر، شناسایی تراکنش‌های جعلی و سفارشی‌سازی محصولات و خدمات برای هر مشتری و نظایر این، از متخصصان علم داده کمک بگیرد.

روند بکاری‌گیری علم داده

به منظور درک بهتر اینکه علم داده چیست، بد نیست در اینجا نگاهی به روند بکارگیری این علم در عمل بیندازیم. فرض کنیم آقای الف مالک یک خرده‌فروشی است و به دنبال یافتن راه‌هایی است که فروش فروشگاه خود را ارتقا دهد. او برای دستیابی به این هدف باید این پرسش‌ها را پاسخ دهد:

  • از فروش کدام محصولات فروشگاه، سود بیشتری کسب خواهد کرد؟
  • آیا تبلیغات درون‌فروشگاهی به درستی پیاده شده‌اند؟
  • آیا محصولات در فروشگاه بطور مناسبی چیده شده‌اند؟

هدف اساسی آقای الف پاسخ دادن به این پرسش‌ها است و کیفیت این پاسخ‌ها، تأثیر زیادی بر نتایج فعالیت او خواهد گذاشت. حالا او از شما بعنوان یک مختصص داده کمک می‌خواهد. اجازه دهید این مشکل را با بررسی روند بکارگیری علم داده حل کنیم.

فرایند بکارگیری علم داده

داده‌یابی (Data Discovery)

نخستین مرحله در فرآیند استفاده از علم داده، داده‌یابی یا data discovery است. این مرحله شامل روش‌هایی برای یافتن داده از منابع مختلفی است که ممکن است قالبی ساختارمند ( unstructured ) نداشته باشند ( نظیر ویدیوها و عکس‌ها ) و یا ساختارمند (structured ) باشند نظیر فایل‌های متنی یا از پایگاه‌ داده‌های رابطه‌ای بدست آمده باشند. سازمان‌ها ممکن است برای درک بهتر افکار و سلیقه‌ مشتریان خود، به داده‌های بدست‌ آمده از رسانه‌های اجتماعی مشتریان و نظایر آن نیز متوسل شوند.

خواندنی ها

در این مرحله هدف ما بعنوان یک متخصص داده، بهبود میزان فروش فروشگاه آقای الف است. از عوامل تأثیرگذار بر میزان فروش می‌توان به این موارد اشاره کرد: مکان فروشگاه، کارکنان، ساعات کاری، تبلیغات، چیدمان محصولات، قیمت محصولات، مکان و نوع تبلیغات رقبا و مواردی از این دست. با درنظر داشتن این عوامل، می‌توان داده‌های موجود را پالایش کرده و از آن‌ها برای تجزیه و تحلیل استفاده کرد. در انتهای این مرحله، همه داده‌هایی که عوامل ذکر شده را پوشش می‌دهند جمع‌آوری خواهیم کرد.

آماده‌سازی داده‌ها

گام بعدی پس از گذر کردن از مرحله داده‌یابی، آماده‌سازی داده‌هاست. در این مرحله داده‌های جمع‌آوری شده که ممکن است ناهمگون باشند (زیرا از منابع مختلفی بدست آمده‌اند) را در یک قالب یکپارچه می‌ریزیم تا بتوانیم بطور کارآمدتری با آن‌ها کار کنیم. در این مرحله شاید به روش‌های پیچیده‌ای برای اینکار نیاز باشد بطور مثال استفاده از روش‌هایی نظیر مدل‌سازی برای تعیین مقادیری که در دست نداریم.

پس از پالایش داده‌ها، گام بعدی تجمیع و نتیجه‌گیری از مجموعه داده‌ها به منظور استفاده در فرآیند تجزیه و تحلیل است. این شامل تجمیع داده‌ها به روش‌هایی نظیر ادغام چند جدول که مربوط به یک شی هستند ولی اطلاعات مختلفی در آن‌ها ذخیره شده است یا بهره‌گیری از انبوهش (aggregation) جداول (ترکیب اطلاعات و کاهش متغیرهای جداول به منظور مرتب شدن و ساختارمند شدن داده‌های موجود) خواهد بود. علاوه بر این در این مرحله می‌توانیم بررسی کنیم که چه الگوها و مقادیری از مجموعه داده‌ها (Data set) قابل استخراج است.

مدل‌های ریاضی

در پس همه پروژه‌های علم داده، مدل‌های ریاضی مشخصی وجود دارند. طراحی و پیاده‌سازی این مدل‌ها توسط متخصصان علم داده و به منظور تأمین نیازهای خاص کسب و کار مورد نظر انجام می‌شود. در این مسیر ممکن است از حوزه‌های مختلف ریاضی نظیر آمار، رگرسیون خطی و رگرسیون لجستیک، حساب دیفرانسیل و انتگرال و نظایر آن کمک گرفته شود. ابزارهای متنوعی در این فرآیند به کمک می‌آیند نظیر ابزارهای محاسبات آماری R، زبان برنامه‌نویسی پایتون، ابزارهای پیشرفته تجزیه و تحلیل SAS و SQL و انواع ابزارهای مصورسازی داده ( visualization) نظیر Tableau و QlikView.

باید توجه داشت که به منظور دستیابی به نتیجه رضایت‌بخش، ممکن است یک مدل ریاضی کفایت نکند و نیاز به استفاده از دو یا تعداد بیشتری مدل باشد. در چنین حالتی، یک متخصص علم داده، گروهی از مدل‌ها را پیاده می‌کند. پس از ارزیابی مدل‌ها او پارامترها را اصلاح کرده و دوباره تنظیم می‌کند. این روند آنقدر ادامه می‌یابد تا متخصص علم داده کاملاً مطمئن شود که مناسب‌ترین مدل را یافته است. در این مرحله شما بعنوان یک متخصص علم داده مدل‌های ریاضی را بر اساس نیازهای کسب و کار آقای الف یافته‌اید. چنین مدلی می‌تواند پاسخگوی پرسش‌هایی نظیر این باشد که کدام محصول عرضه شده در این مغازه بیشترین سوددهی را خواهد داشت یا آیا چیدمان کالاها در فروشگاه به درستی انجام شده است یا خیر.

استفاده از آنچه بدست‌ آورده‌ایم در عمل

پس از آماده شدن داده‌ها و پیاده‌سازی مدل‌ها، حالا زمان آن رسیده است که از این مدل‌ها برای دستیابی به هدف‌مان استفاده کنیم. در این مرحله هم ممکن است نیاز به رفع اشکالات احتمالی داشته باشیم و مدل نیازمند تنظیم و بهینه‌سازی باشد. در اینجا با ارزیابی مدل می‌توان درکی از عملکرد آن بدست آورد. شما بعنوان یک متخصص علم داده در این مرحله بر اساس نیازهای کسب و کار آقای الف به جمع‌آوری اطلاعات و استخراج نتایج می‌پردازید.

عرضه یافته‌ها به سازمان

حالا می‌رسیم به آخرین مرحله و در عین حال یکی از مراحل مهم در مسیر استفاده از علم داده. در این مرحله متخصص علم داده باید در نقش رابطی بین گروه‌های مختلف سازمان ظاهر شود و این توانایی را داشته باشد که بطور روشن و صریح یافته‌هایش را در اختیار سهامداران اصلی و تصمیم‌گیران سازمان قرار دهد. اهمیت این موضوع از این جهت است که سازمان، هدف‌گذاری خود را بر اساس توصیه‌های متخصص علم داده خواهد چید. در مثال ما، شما بر اساس آنچه از داده‌ها بدست آورده‌اید با صاحب کسب و کار ارتباط برقرار خواهید کرد و تغییرات معینی را در استراتژی کسب و کار پیشنهاد خواهید کرد چنانکه آقای الف بتواند بیشترین سود را کسب کند.

اجزای علم داده

اجزا علم داده

حالا که به اینجا رسیدیم بد نیست نگاهی به برخی از اجزای اصلی علم داده بیندازیم:

داده و انواعش

اساس علم داده، مجموعه داده‌های خام است. این داده‌ها انواع مختلفی دارند نظیر داده‌های ساختاریافته ( که عموماً در قالب جداول هستند) و داده‌های غیرساختاریافته (نظیر عکس‌ها و ویدیوها و ایمیل‌ها و فایل‌های پی‌دی‌اف).

برنامه‌نویسی (پایتون و R)

مدیریت داده‌ و تجزیه و تحلیل آن با کمک برنامه‌نویسی کامپیوتری انجام می‌شود. در علم داده دو زبان برنامه‌نویسی پایتون و R از محبوبیت زیادی برخوردار هستند.

آمار و احتمال

داده‌ها به منظور استخراج اطلاعات، دستکاری می‌شوند. آمار و احتمال، بازوی ریاضی علم داده است. بدون دانش کافی در زمینه آمار و احتمالات، امکان بسیار زیادی وجود دارد که داده‌ها به اشتباه تفسیر شوند و نتیجه‌گیری‌ها به بیراهه بروند. به همین دلیل است که آمار و احتمال جایگاه بسیار مهمی در علم داده دارد.

یادگیری ماشین

بعنوان یک متخصص علم داده، هر روز از الگوریتم‌های یادگیری ماشین نظیر روش‌های رگرسیون (regression) و طبقه‌بندی (classification) استفاده می‌کنید. برای یک متخصص علم داده آگاهی از یادگیری ماشین بسیار اهمیت دارد چراکه بخش مهمی از این حرفه است. یادگیری ماشین به متخصص علم داده این امکان را می‌دهد تا از میان داده‌های موجود، به پیش‌بینی‌های با‌ارزشی برسد.

کلان داده

در دنیای امروز داده‌های خام از نظر ارزش با نفت خام مقایسه می‌شود. همانطور که ما با پالایش نفت خام می‌توانیم محصولات مختلفی را به دست آوریم، با کمک علم داده هم می‌توانیم انواع مختلفی از اطلاعات را از داده‌های خام استخراج کنیم. در علم داده برای پردازش کلان داده‌ها از ابزارهای مختلفی استفاده می‌شود نظیر Java و Hadoop و R و Pig و Apache Spark و … .

علم داده بعنوان ابزاری کارآمد

همانطور که مشاهده کردید، علم داده مجموعه‌ای در هم تنیده از مهارت‌ها و تخصص‌هاست. شاید به جرأت بتوان گفت که این علم یک هنر است. متخصص علم داده باید آنقدر در حرفه‌اش به مهارت رسیده باشد که بر اساس نیاز مشتری، با داده کار کند و آنچه سبب برتری مشتری در بازار رقابت می‌شود را از داده‌ها بیرون بکشد. شاید این حرفه در نگاه نخست، حرفه‌ای پول‌ساز به نظر برسد و از این جهت جذاب باشد اما باید توجه داشت که یک متخصص علم داده باید احاطه کاملی نه تنها به حرفه خودش بلکه به حیطه کاری مشتریان خود نیز داشته باشد.

نظر شما درباره این مطلب

آدرس ایمیل شما منتشر نخواهد شد.