تمام حقوق برای خط مهندسی محفوظ است
همانطور که میدانید رواج استفاده از انواع خدمات الکترونیکی، شبکههای اجتماعی و اینترنت باعث شده است تا حجم زیادی از اطلاعات تولید شود. این اطلاعات تولید شده علاوه بر حجم بالا، گوناگونی زیادی نیز دارند. انواع داده نظیر فیلم، عکس، متن و … به سرعت در حال تولید هستند. این عدم ساخت یافتگی و حجم بسیار زیاد باعث شده تا پوشش و پردازش این داده ها (بیگ دیتا) توسط پایگاه دادههای سنتی بسیار سخت و حتی غیرممکن باشد.
به دلایل گفته شده دانشمندان و متخصصان علم کامپیوتر به دنبال شیوهای نوین برای پردازش اطلاعات با حجم زیاد و ساختارهای متنوع بودند و اینگونه شد که بیگ دیتا به یکی از مباحث بسیار مهم در دنیای امروز تبدیل شد.
بیگ دیتا یا کلان داده چیست؟
از عبارت بیگ دیتا یا همان کلان داده مدتها است که برای اشاره به حجم بسیار بالای دادهها که توسط سازمانهایی نظیر ناسا تولید و پردازش میشوند، استفاده میشود. اندازه این دیتاها به قدری زیاد است که با نرمافزارهای معمول قابل پردازش در یک بازه زمانی مناسب و معقول نیستند.
موسسه تحقیقاتی گارتنر بیگ دیتا را به این شکل تعریف کرده است که: بیگ دیتا، دادههایی هستند بسیار زیاد، پرسرعت و مختلف که برای نگهداری و پردازش نیاز به شیوهی تازهای دارند. این دادهها دائما از نظر حجم، سرعت تولید و گوناگونی در حال تغییر هستند.
تاریخچه بیگ دیتا
حدود هفتاد سال پیش با انفجار اطلاعات، تلاش برای تعیین نرخ رشد دادهها شروع شد. فرمونت رایدر در سال ۱۹۹۴ آینده کتابخانه های آمریکایی را پیش بینی کرد و گفت هر ۱۶ سال یکبار حجم کتابهای موجود در کتابخانه دو برابر میشوند. پس حس کرد که نیاز به منبعی برای نگهداری از حجم زیادی از اطلاعات و داده است.
در سال ۱۹۶۷ دکتر مین در مقالهای با عنوان فشرده سازی خودکار دادهها به انفجار اطلاعات اشاره کرد. و بیان کرد باید دادهها را در حداقل فضای ممکن بتوان ذخیره کرد.
وزارت پست و مخابرات در ژاپن در سال ۱۹۷۵ به سرشماری و ردیابی اطلاعات اقدام کرد. در این سرشماری متوجه شدند که عرضه اطلاعات بسیار بیشتر از تقاضای آن است.
سازمان مرکزی آمار مجارستان در سال ۱۹۸۱ یک پروژه تحقیقاتی را شروع کرد که در آن حجم زیادی از اطلاعات که در یک بیت قرار داشت بررسی شد.
یک دانشمند آمریکایی به نام پیتر دنینگ در سال ۱۹۹۰ بیان کرد که ذخیره تمامی بیتها و دادهها برای دانشمندان ضروری است.
پس از آن نیز اتفاقات بسیار افتاد تا علم بیگ دیتا به جایی که امروز است رسید. اما بیشتر دادههایی که گوگل و شبکههای اجتماعی در چند سال اخیر تولید کردند تأثیر زیادی در پیشرفت علم آنالیز کلان داده داشت.
چرا نمیتوان بیگ دیتا را فشردهسازی کرد؟
شرکتهایی مثل گوگل، یاهو و … با حجم زیادی از دیتای بدون ساختار که کاربرانشان تولید میکنند رو به رو هستند. ابزارهایی نظیر اوراکل و sql نیز جوابگوی نیازهای این شرکتهای بزرگ نیستند. شاید یکی از سادهترین راه ها که به ذهن شما میرسد فشرده سازی دیتا است. اما باید گفت اینکار برای دیتاهایی با حجم بالا جوابگو نیست. چرا؟ چون غیرساختارمند بودن داده ها فشرده سازی آنها را سخت کرده است. به طوریکه در اکثر مواقع، همان زمانی که برای پردازش دیتا به شیوه سنتی به کار میرود برای فشرده سازی آن لازم است.
محبوبترین ابزار برای پردازش بیگ دیتا یا بزرگ داده هدوپ نام دارد. این پلتفرم به راحتی روی هر سیستمی حتی سیستمهای معمولی نصب میشود و میتوان از آن استفاده کرد. در این صورت دیگر نیاز به کامپیوترهای غول آسا و گران قیمت برای ذخیره دادهها وجود ندارد. تنها کافی است تا چندین کامپیوتر معمولی را با یکدیگر شبکه کرده و با تقسیم دیتا بین کامپیوترها به مدیریت و پردازش دادهها پرداخت.
معیارهای شناسایی کلان داده
حجم بسیار بالایی از دیتا به تنهایی معیاری برای شناسایی بیگ دیتا نیست. علاوه بر حجم دو معیار سرعت و تنوع نیز برای تشخیص بیگ دیتا از سایر دادهها استفاده میشوند. این سه معیار یعنی حجم بالا، سرعت تولید داده و تنوع داده سه عامل اصلی و مهم برای تشخیص بیگ دیتا هستند. اما معیارهای فرعی دیگری نیز وجود دارد.
حجم داده
رشد تولید دادهها به صورت نمایی است. منابع زیادی مانند شبکههای اجتماعی، وب سرورها، ماهوارهها، تراکنشهای بانکی، صفحات وب و … هستند که حجم بالایی از دیتا را تولید میکنند.
نرخ تولید داده یا سرعت
برای اینکه بهتر سرعت یا نرخ تولید داده را متوجه شوید یک مثال میزنیم. توییتر یک بیلیون توییت در هر سه روز توسط ۱۴۰ میلیون کاربر فعال تولید میکند و این رقم همواره در حال افزایش است. اما برای شرکتی که دادههای بسیاری دارد ولی نرخ تولید داده آن در سال ۱ درصد است به هیچ عنوان استفاده از ابزارهای بیگ دیتا توصیه نمیشود. دادههای بسیاری نیز توسط سنسورها و برنامههای کاربردی تولید میشوند که نیاز دارند به محض ورود داده به کاربر پاسخ دهند.
تنوع داده
تنوع دادههای تولید شده بسیار زیاد است. پس ما با ساختارهای مختلفی رو به رو هستیم. از دادههایی که مستقیما توسط انسان تولید میشوند حرفی نمیزنیم، چون احتمال خطا در آنها کم است. اما تنوع دادهها سبب افزایش بروز خطا در نتایج پردازشات شده است.
صحت داده
دادهها از منابع گوناگونی تهیه میشوند. پس طبیعی است که نتوان به همه آنها اعتماد کرد. برای مثال در یک موضوع خاص که در شبکههای اجتماعی مطرح میشود، ممکن است نظرات گوناگونی وجود داشته باشد. اما نمیتوان گفت همه آنها درست و قابل اعتماد هستند. از طرفی دیگر نمیتوان راحت از کنار این حجم از دیتا نیز گذشت.
اعتبار داده
فرض کنیم تمام دادههای ما کاملا صحیح و درست هستند. با این حال این دادهها برای همه کاربردها مناسب نیستند. یا بهتر است بگوییم اعتبار کافی برای استفاده از برخی کاربردها را ندارند. از این رو مهم است از چه دیتایی برای چه کاربردی استفاده میکنیم.
نمایش اطلاعات
نمایش اطلاعات در حوزه کلان داده یکی از مشکلات آن است. اینکه حجم بالای اطلاعاتی را که ارتباطات پیچیدهای نیز دارند طوری نمایش دهیم که قابل فهم و مطالعه باشند کاری بس سخت است. البته از روشهای بصری سازی مناسب و تحلیل اطلاعات این امکان به وجود آمده است.
ارزش داده
این موضوع دلالت بر این دارد که از نظر اطلاعاتی برای تصمیم گیری چقدر داده حائز ارزش است . به عبارت دیگر آیا هزینه ای که برای نگهداری داده و پردازش آنها میشود، ارزش آن را از نظر تصمیمگیری دارد یا نه.
نوسان داده
ارزش دادهها ممکن است به سرعت تغییر کند. شاید در یک سیستم معمولی تجارت سرعت نوسانات ارزش داده زیاد نباشد اما در کارهایی که با ارز و بورس سر و کار دارند، دیتا با نوسانات بسیار زیادی رو به رو است. به این معنا که دیتاها به سرعت ارزش خود را از دست میدهند و ارزش جدیدی میگیرند. برای تحلیل نوسانات دادهها نگهداری از آنها برای مدت طولانی بسیار مهم است اما میتواند هزینههای بسیاری دربر داشته باشد.
هدوپ چیست؟
در زمینه پردازش بیگ دیتا تکنولوژیها و ابزارهای زیادی وجود دارند. یکی از مهمترین و معروفترین این ابزارها آپاچی هدوپ(Hadoop) است. هدوپ یک چهارچوب متن باز برای پردازش و ذخیره سازی داده است. ویژگیهای اصلی هدوپ به شرح زیر است:
- هدوپ متن باز بوده به همین دلیل کتابخانهها، توابع و منابع آن به راحتی در دسترس است.
- لایهها و اجزا آن یکپارچه نبوده و مستقل عمل میکنند.
- از دسترسی به فایل های خارجی پشتیبانی میشود.
- هنگام بار زیاد، عملیات به چندین گروه شکسته شده و به گرههای مختلف سپرده میشود.
- تعادل بار در هر کدام از گرههای سیستم توزیع شده هدوپ هنگام افزایش ترافیک برقرار میشود.
- گرههای خراب شده به راحتی در سیستم جایگزین میشوند.
فایل سیستم توزیع شده هدوپ
هدوپ یک فایل سیستم توزیع شده دارد که نیازمند کامپیوترهای گران قیمت نیست. به راحتی میتوان با کامپیوترهای ارزان قیمت و معمولی سیستم را راه اندازی کرد. به همین دلیل این سیستم از کارایی بالایی برخوردار است.
این سیستم فایل توزیع شده تحت هدوپ کار میکند و یک چارچوبی برای تحلیل و تغییر شکل مجموعه داده های بسیار بزرگ با استفاده از MapReduce مبیباشد.
کاربرد بیگ دیتا
بیگ دیتا در زمینههای بسیاری کاربرد دارد. در این بخش تعدادی از کاربردهای بیگ دیتا را معرفی میکنیم.
- بهداشت و درمان
- آموزش
- تولید
- خرده فروشی
- دولت
- علوم اجتماعی
- شبکههای اجتماعی
- ورزش
- خطوط هوایی
- پیشبینی بلایای طبیعی
- و …
در هر کدام از زمینههای گفته شده و حتی سایر حوزهها میتوان از بیگ دیتا استفاده کرد. بیشتر برای کلاس بندی یا پیش بینی نتایج برای تصمیم گیری بهتری در زمینههای مختلف از بیگ دیتا استفاده میشود. در آینده مقاله کاملتری درباره کاربردها و چالشهای بیگ دیتا منتشر خواهیم کرد.
بیگ دیتا در ایران
در ایران نیز از آنالیز بیگ دیتا استفاده میشود. برای مثال بانک آینده یا شرکت نفت ایران از این علم برای بهبود کار خود استفاده کردهاند. با این حال فاصله بین صنعت و دانشگاه بسیار زیاد است. بیشتر سازمانها مشکلاتی در جمع آوری و نگهداری از دادهها را دارند. به همین دلیل این حوزهها در آیندهای نزدیک رشد قابل توجهی خواهند داشت. با این حال اکثر دانشگاهیان به علم تحلیل دادهها علاقه دارند. در حالی که اگر دادهی ارزشمند و مناسب وجود نداشته باشد چیزی برای تحلیل نیز وجود نخواهد داشت. در حال حاضر سازمانها با این مشکل آشنا شده و دلیل شکست خود در پروژههای بیگ دیتا را متوجه شدهاند. پس باید شاهد آینده روشن بیگ دیتا در ایران باشیم.
بیگ دیتا در جهان
ما در عصر اطلاعات زندگی میکنیم. در این دوره کسانی که از اطلاعات بیشتری برخوردارند یا میتوانند به خوبی از دادهها یا اطلاعات استفاده کنند پیروز هستند. باید گفت که بیگ دیتا در هر زمینهای میتواند مفید بوده و به بازدهی بیشتر در تمام سازمانها کمک کند. وضعیت بیگ دیتا در سایر نقاط جهان از ایران بهتر است و در بسیاری از سازمانها از کلان داده برای توسعه، افزایش کارایی، پیشبینی و به طور کلی بهبود زندگی انسان استفاده میکنند.
ارتباط بیگ دیتا با سایر علوم
کلان داده با سایر علوم نظیر اینترنت اشیا، یادگیری ماشین، هوش مصنوعی و … ارتباط دارد. به این معنا که هم کلان داده بر روی این علوم تأثیر میگذارد و باعث پیشرفت این علوم میشود. از طرفی دیگر میتوان از این علوم نیز برای بهبود و آنالیز کلان داده نیز استفاده کرد. برای مثال برای نوشتن کدهای آنالیز مجموعه بسیار از دادهها باید از الگوریتمهای یادگیری ماشین نیز استفاده کرد.
سخن پایانی
با توجه به اینکه دادههای بسیار زیادی وجود دارد و این دادهها به سرعت در حال رشد هستند، برای بهبود انجام کار در سازمانها و تصمیمگیری های بهتر باید از کلان داده استفاده کرد. به همین دلیل امروزه علم آنالیز کلان داده بسیار مهم است. البته این علم زمینههای مختلفی دارد.
سلام من یه تحقیق میخوام راجع به فشرده سازی در بیگ دیتا شما میتونید کمی من رو راهنمایی کنید
سلام البته. خوشحال میشم کمکتون کنم
ممنونم میتونید به من چند منبع معرفی کنید