خط مهندسی
مجله ی آنلاین مهندسی

بیگ دیتا: معرفی، کاربردها و آینده آن در ایران و جهان

0 660

 بیگ دیتا همانطور که می‌دانید رواج استفاده از انواع خدمات الکترونیکی، شبکه‌های اجتماعی و اینترنت باعث شده است تا حجم زیادی از اطلاعات تولید شود. این اطلاعات تولید شده علاوه بر حجم بالا، گوناگونی زیادی نیز دارند. انواع داده نظیر فیلم، عکس، متن و … به سرعت در حال تولید هستند. این عدم ساخت یافتگی و حجم بسیار زیاد باعث شده تا پوشش و پردازش این داده ها (بیگ دیتا) توسط پایگاه ‌داده‌های سنتی بسیار سخت و حتی غیرممکن باشد.

به دلایل گفته شده دانشمندان و متخصصان علم کامپیوتر به دنبال شیوه‌ای نوین برای پردازش اطلاعات با حجم زیاد و ساختارهای متنوع بودند و اینگونه شد که بیگ دیتا به یکی از مباحث بسیار مهم در دنیای امروز تبدیل شد.

حدود ۹۰% داده‌های موجود در جهان در چند سال اخیر تولید شده‌اند. حتی حرکت ماوس شما در اینترنت یک داده تلقی می‌شود.

بیگ دیتا یا کلان داده چیست؟

از عبارت بیگ دیتا یا همان کلان داده مدت‌ها است که برای اشاره به حجم بسیار بالای داده‌ها که توسط سازمان‌هایی نظیر ناسا تولید و پردازش می‌شوند، استفاده می‎‌‎‌شود. اندازه این دیتاها به قدری زیاد است که با نرم‌افزارهای معمول قابل پردازش در یک بازه زمانی مناسب و معقول نیستند.

موسسه تحقیقاتی گارتنر بیگ دیتا را به این شکل تعریف کرده است که: بیگ دیتا، داده‌هایی هستند بسیار زیاد، پرسرعت و مختلف که برای نگهداری و پردازش نیاز به شیوه‌ی تازه‌ای دارند. این داده‌ها دائما از نظر حجم، سرعت تولید و گوناگونی در حال تغییر هستند.

تاریخچه بیگ دیتا

حدود هفتاد سال پیش با انفجار اطلاعات، تلاش برای تعیین نرخ رشد داده‌ها شروع شد. فرمونت رایدر در سال ۱۹۹۴ آینده کتابخا‌نه های آمریکایی را پیش بینی کرد و گفت هر ۱۶ سال یکبار حجم کتاب‌های موجود در کتابخانه دو برابر می‌شوند. پس حس کرد که نیاز به منبعی برای نگهداری از حجم زیادی از اطلاعات و داده است.

در سال ۱۹۶۷ دکتر مین در مقاله‌ای با عنوان فشرده سازی خودکار داده‌ها به انفجار اطلاعات اشاره کرد. و بیان کرد باید داده‌ها را در حداقل فضای ممکن بتوان ذخیره کرد.

وزارت پست و مخابرات در ژاپن در سال ۱۹۷۵ به سرشماری و ردیابی اطلاعات اقدام کرد. در این سرشماری متوجه شدند که عرضه اطلاعات بسیار بیشتر از تقاضای آن است.

سازمان مرکزی آمار مجارستان در سال ۱۹۸۱ یک پروژه تحقیقاتی را شروع کرد که در آن حجم زیادی از اطلاعات که در یک بیت قرار داشت بررسی شد.

یک دانشمند آمریکایی به نام پیتر دنینگ در سال ۱۹۹۰ بیان کرد که ذخیره تمامی بیت‌ها و داده‌ها برای دانشمندان ضروری است.

پس از آن نیز اتفاقات بسیار افتاد تا علم بیگ دیتا به جایی که امروز است رسید. اما بیشتر داده‌هایی که گوگل و شبکه‌های اجتماعی در چند سال اخیر تولید کردند تأثیر زیادی در پیشرفت علم آنالیز کلان داده داشت.

چرا نمی‌توان بیگ دیتا را فشرده‌سازی کرد؟

شرکت‌هایی مثل گوگل، یاهو و … با حجم زیادی از دیتای بدون ساختار که کاربرانشان تولید می‌کنند رو به رو هستند. ابزارهایی نظیر اوراکل و sql نیز جوابگوی نیازهای این شرکت‌های بزرگ نیستند. شاید یکی از ساده‌ترین راه ها که به ذهن شما می‌رسد فشرده سازی دیتا است. اما باید گفت اینکار برای دیتاهایی با حجم بالا جوابگو نیست. چرا؟ چون غیرساختارمند بودن داده ها فشرده سازی آنها را سخت کرده است. به طوریکه در اکثر مواقع، همان زمانی که برای پردازش دیتا به شیوه سنتی به کار می‌رود برای فشرده سازی آن لازم است.

محبوب‌ترین ابزار برای پردازش بیگ دیتا یا بزرگ داده هدوپ نام دارد. این پلتفرم به راحتی روی هر سیستمی حتی سیستم‌های معمولی نصب می‌شود و می‌توان از آن استفاده کرد. در این صورت دیگر نیاز به کامپیوترهای غول آسا و گران قیمت برای ذخیره داده‌ها وجود ندارد. تنها کافی است تا چندین کامپیوتر معمولی را با یکدیگر شبکه کرده و با تقسیم دیتا بین کامپیوترها به مدیریت و پردازش داده‌ها پرداخت.

معیارهای شناسایی کلان داده

حجم بسیار بالایی از دیتا به تنهایی معیاری برای شناسایی بیگ دیتا نیست. علاوه بر حجم دو معیار سرعت و تنوع نیز برای تشخیص بیگ دیتا از سایر داده‌ها استفاده می‌شوند. این سه معیار یعنی حجم بالا، سرعت تولید داده و تنوع داده سه عامل اصلی و مهم برای تشخیص بیگ دیتا هستند. اما معیارهای فرعی دیگری نیز وجود دارد.

معیارهای تشخیص کلان داده

حجم داده

رشد تولید داده‌ها به صورت نمایی است. منابع زیادی مانند شبکه‌های اجتماعی، وب سرورها، ماهواره‌ها، تراکنش‌های بانکی، صفحات وب و … هستند که حجم بالایی از دیتا را تولید می‌کنند.

نرخ تولید داده یا سرعت

برای اینکه بهتر سرعت یا نرخ تولید داده را متوجه شوید یک مثال می‌زنیم. توییتر یک بیلیون توییت در هر سه روز توسط ۱۴۰ میلیون کاربر فعال تولید می‌کند و این رقم همواره در حال افزایش است. اما برای شرکتی که داده‌های بسیاری دارد ولی نرخ تولید داده آن در سال ۱ درصد است به هیچ عنوان استفاده از ابزارهای بیگ دیتا توصیه نمی‌شود. داده‌های بسیاری نیز توسط سنسورها و برنامه‌های کاربردی تولید می‌شوند که نیاز دارند به محض ورود داده به کاربر پاسخ دهند.

تنوع داده

تنوع داده‌های تولید شده بسیار زیاد است. پس ما با ساختارهای مختلفی رو به رو هستیم.  از داده‌هایی که مستقیما توسط انسان تولید می‌شوند حرفی نمی‌زنیم، چون احتمال خطا در آنها کم است. اما تنوع داده‌ها سبب افزایش بروز خطا در نتایج پردازشات شده است.

تنوع دیتا جامعیت دیتا را تحت الشعاع خود قرار داده است.

 

صحت داده

داده‌ها از منابع گوناگونی تهیه می‌شوند. پس طبیعی است که نتوان به همه آنها اعتماد کرد. برای مثال در یک موضوع خاص که در شبکه‌های اجتماعی مطرح می‌شود، ممکن است نظرات گوناگونی وجود داشته باشد. اما نمی‌توان گفت همه آنها درست و قابل اعتماد هستند. از طرفی دیگر نمی‌توان راحت از کنار این حجم از دیتا نیز گذشت.

صحت بیگ دیتا یکی از بزرگترین چالش‌های پیش‌ روی متخصصان این علم است.

اعتبار داده

فرض کنیم تمام داده‌های ما کاملا صحیح و درست هستند. با این حال این داده‌ها برای همه کاربردها مناسب نیستند. یا بهتر است بگوییم اعتبار کافی برای استفاده از برخی کاربردها را ندارند. از این رو مهم است از چه دیتایی برای چه کاربردی استفاده می‌کنیم.

نمایش اطلاعات

نمایش اطلاعات در حوزه کلان داده یکی از مشکلات آن است. اینکه حجم بالای اطلاعاتی را که ارتباطات پیچیده‌ای نیز دارند طوری نمایش دهیم که قابل فهم و مطالعه باشند کاری بس سخت است. البته از روش‌های بصری سازی مناسب و تحلیل اطلاعات این امکان به وجود آمده است.

ارزش داده

این موضوع دلالت بر این دارد که از نظر اطلاعاتی  برای تصمیم گیری چقدر داده حائز ارزش است . به عبارت دیگر آیا هزینه ای که برای نگهداری داده و پردازش آن­ها می­شود، ارزش آن را از نظر تصمیم­گیری دارد یا نه.

نوسان داده

ارزش داده‌ها ممکن است به سرعت تغییر کند. شاید در یک سیستم معمولی تجارت سرعت نوسانات ارزش داده زیاد نباشد اما در کارهایی که با ارز و بورس سر و کار دارند، دیتا با نوسانات بسیار زیادی رو به رو است. به این معنا که دیتاها به سرعت ارزش خود را از دست می‌دهند و ارزش جدیدی می‌گیرند. برای تحلیل نوسانات داده‌ها نگهداری از آنها برای مدت طولانی بسیار مهم است اما می‌تواند هزینه‌های بسیاری دربر داشته باشد.

 

هدوپ چیست؟

در زمینه پردازش بیگ دیتا تکنولوژی‌ها و ابزارهای زیادی وجود دارند. یکی از مهمترین و معروف‌ترین این ابزارها آپاچی هدوپ(Hadoop) است. هدوپ یک چهارچوب متن باز برای پردازش و ذخیره‌ سازی داده است. ویژگی‌های اصلی هدوپ به شرح زیر است:

هدوپ

 

  • هدوپ متن باز بوده به همین دلیل کتابخانه‌ها، توابع و منابع آن به راحتی در دسترس است.
  • لایه‌ها و اجزا آن یکپارچه نبوده و مستقل عمل می‌کنند.
  • از دسترسی به فایل های خارجی پشتیبانی می­شود.
  • هنگام بار زیاد، عملیات به چندین گروه شکسته شده و به گره‌های مختلف سپرده می‌شود.
  • تعادل بار در هر کدام از گره‌های سیستم توزیع شده هدوپ هنگام افزایش ترافیک برقرار می‌شود.
  • گره‌های خراب شده به راحتی در سیستم جایگزین می‌شوند.

 

فایل سیستم توزیع شده هدوپ

هدوپ یک فایل سیستم توزیع شده دارد که نیازمند کامپیوترهای گران قیمت نیست. به راحتی می‌توان با کامپیوترهای ارزان قیمت و معمولی سیستم را راه اندازی کرد. به همین دلیل این سیستم از کارایی بالایی برخوردار است.

HDFS

این سیستم فایل توزیع شده تحت هدوپ کار می­کند و یک چارچوبی برای تحلیل و تغییر شکل مجموعه داده های بسیار بزرگ با استفاده از MapReduce مبی­باشد.

یکی از مهمترین ویژگی های هدوپ، پارتیشن بندی داده ها و محاسبات میان هزاران میزبان و اجرای برنامه های محاسباتی موازی بر روی داده هایشان است.

کاربرد بیگ دیتا

بیگ دیتا در زمینه‌های بسیاری کاربرد دارد. در این بخش تعدادی از کاربردهای بیگ دیتا را معرفی می‌کنیم.

کاربردهای بیگ دیتا

  • بهداشت و درمان
  • آموزش
  • تولید
  • خرده فروشی
  • دولت
  • علوم اجتماعی
  • شبکه‌های اجتماعی
  • ورزش
  • خطوط هوایی
  • پیش‌بینی بلایای طبیعی
  • و …

در هر کدام از زمینه‌های گفته شده و حتی سایر حوزه‌ها می‌توان از بیگ دیتا استفاده کرد. بیشتر برای کلاس بندی یا پیش بینی نتایج برای تصمیم گیری بهتری در زمینه‌های مختلف از بیگ دیتا استفاده می‌شود. در آینده مقاله کاملتری درباره کاربردها و چالش‌های بیگ دیتا منتشر خواهیم کرد.

بیگ دیتا در ایران

در ایران نیز از آنالیز بیگ دیتا استفاده می‌شود. برای مثال بانک آینده یا شرکت نفت ایران از این علم برای بهبود کار خود استفاده کرده‌اند. با این حال فاصله بین صنعت و دانشگاه بسیار زیاد است. بیشتر سازمان‌ها مشکلاتی در جمع آوری و نگهداری از داده‌ها را دارند. به همین دلیل این حوزه‌ها در آینده‌ای نزدیک رشد قابل توجهی خواهند داشت. با این حال اکثر دانشگاهیان به علم تحلیل داده‌ها علاقه دارند. در حالی که اگر داده‌ی ارزشمند و مناسب وجود نداشته باشد چیزی برای تحلیل نیز وجود نخواهد داشت. در حال حاضر سازمان‌ها با این مشکل آشنا شده و دلیل شکست خود در پروژه‌های بیگ دیتا را متوجه شده‌اند. پس باید شاهد آینده روشن بیگ دیتا در ایران باشیم.

بیگ دیتا در جهان

ما در عصر اطلاعات زندگی می‌کنیم. در این دوره کسانی که از اطلاعات بیشتری برخوردارند یا می‌توانند به خوبی از داده‌ها یا اطلاعات استفاده کنند پیروز هستند. باید گفت که بیگ دیتا در هر زمینه‌ای می‌تواند مفید بوده و به بازدهی بیشتر در تمام سازمان‌ها کمک کند. وضعیت بیگ دیتا در سایر نقاط جهان از ایران بهتر است و در بسیاری از سازمان‌ها از کلان داده برای توسعه، افزایش کارایی، پیش‌بینی و به طور کلی بهبود زندگی انسان استفاده می‌کنند.

ارتباط بیگ دیتا با سایر علوم

کلان داده با سایر علوم نظیر اینترنت اشیا، یادگیری ماشین، هوش مصنوعی و … ارتباط دارد. به این معنا که هم کلان داده بر روی این علوم تأثیر می‌گذارد و باعث پیشرفت این علوم می‌شود. از طرفی دیگر می‌توان از این علوم نیز برای بهبود و آنالیز کلان داده نیز استفاده کرد. برای مثال برای نوشتن کدهای آنالیز مجموعه بسیار از داده‌ها باید از الگوریتم‌های یادگیری ماشین نیز استفاده کرد.

سخن پایانی

با توجه به اینکه داده‌های بسیار زیادی وجود دارد و این داده‌ها به سرعت در حال رشد هستند، برای بهبود انجام کار در سازمان‌ها و تصمیم‌گیری های بهتر باید از کلان داده استفاده کرد. به همین دلیل امروزه علم آنالیز کلان داده بسیار مهم است. البته این علم زمینه‌های مختلفی دارد.

داده های بیشتر به همراه تحلیل های دقیق منجر به تصمیم گیری های مطمئن شده و تصمیمات بهتر، میتواند به معنای کارآیی بیشتر عملیات، کاهش هزینه ها و کاهش ریسک باشد. از این رو استفاده از بیگ دیتا و روش‌های آنالیز آن بسیار محبوب هستند.

 

نظر شما درباره این مطلب

آدرس ایمیل شما منتشر نخواهد شد.