تمام حقوق برای خط مهندسی محفوظ است
داده کاوی یا Data Mining کاوش و تجزیه و تحلیل دادههای بزرگ برای کشف الگوها و قوانین معنیدار در میان حجم زیادی از دادهها است.
در این نوشتار به معرفی و کاربرد استفاده از این رشته جدید که در حوزه مطالعاتی علوم مختلف مورد توجه قرار گرفته است میپردازیم. استخراج و کشف دادهها در این حوزه با هدف پیش بینی نتایج در آینده میباشد، علاوه بر این داده کاوی پل ارتباطی بین آمار، هوش مصنوعی، یادگیری ماشین (ML) (الگوریتمهایی است که میتوانند از دادهها برای پیش بینی استفاده کنند) و الگو شناسی است.
کاربردهای داده کاوی
- بازاریابی و هدف گذاری بر مبنای بانکهای اطلاعاتی
- مدیریت ریسک اعتباری و امتیاز دهی اعتبار
- تشخیص و پیشگیری از کلاهبرداری
- بیوانفورماتیک بهداشت و درمان
- فیلتر کردن اسپم
- سیستم های توصیه کننده
- تحلیل احساسات
- داده کاوی کیفی (QDM)
نحوه انجام داده کاوی
فرآیند داده کاوی پذیرفته شده شامل شش مرحله است:
۱- تبدیل مسئله کسب و کار به مسئله داده کاوی
اولین قدم تعیین اهداف پروژه و درک صحیح از کسب و کار است و اینکه چگونه داده کاوی میتواند در رسیدن به آن هدف به شما کمک کند.
۲- درک دادهها
دادههای مرتبط با کسب و کار از کلیه منابع قابل استفاده در این مرحله جمعآوری میشود و باید ارتباط آن با اهداف پروژه شناسایی شود.
۳- آماده سازی داده
سپس دادهها پالایش و تصحیح شده و برای فاز تحلیل آماده میگردند و به نوعی دادههای پرت و ناسازگار حذف میشوند. پردازش دادهها بسته به میزان دادههای تحلیل شده و تعداد منابع میتواند زمان زیادی به طول بیانجامد. بنابراین برای بهبود سرعت فرایند داده کاوی به جای بارگذاری یک سیستم واحد، سیستمهای توزیع شده در سیستم مدرن مدیریت پایگاه داده (DBMS) استفاده میشوند.
۴- مدل سازی دادهها
در این مرحله تحلیل گر از مدلهای ریاضی برای یافتن الگوهای داده ها و با استفاده از ابزارهای پیشرفته برای داده کاوی استفاده میکند.
۵- ارزیابی مدلها
مدلهای استخراج شده مورد ارزیابی قرار میگیرند تا معلوم شود که مدلها تا چه حد به اهداف کسب و کار نزدیک است، آیا به مرحله استقرار برود یا خیر؟ تیم دادهکاوی دادهها را به صورت بصری و با ابزار گرافیکی نمایش میدهند تا درک بهتری از معنای آنها حاصل شود.
۶- استقرار مدلها
در صورتیکه داده استخراج شده با اهداف اولیه پروژه مطابقت داشته باشد میتواند استقرار یابند و به عنوان یک بستر اطلاعاتی هوشمند کسب و کار برای ارائه یک منبع حقیقی برای شناسایی دادههای سرویس استفاده شود.
مزایای داده کاوی
داده کاوی دارای مزایایی میباشد که در زیر به چند مورد از آنها اشاره میشود:
تصمیم گیری خودکار
داده کاوی به سازمانها اجازه میدهد تا دادهها را به طور مداوم تجزیه و تحلیل کنند و تصمیمات مهم و عادی را بدون تأخیر در قضاوت انسان به طور خودکار انجام دهند. بانکها میتوانند فوراً معاملات جعلی را تشخیص دهند، درخواست بازبینی کنند و حتی امنیت اطلاعات شخصی مشتریان در مقابل سرقت هویت آنها را تضمین کنند. این مدلها در الگوریتمهای عملیاتی یک شرکت مستقر هستند که میتوانند دادهها را بطور مستقل جمع آوری و تجزیه و تحلیل کنند و به کار بگیرند تا تصمیم گیری را ساده تر و فرآیندهای روزانه یک سازمان را ارتقا دهند.
پیش گویی صحیح و پیش بینی
برنامه ریزی یک فرآیند مهم در هر سازمان است. داده کاوی برنامه ریزی را تسهیل میکند و بر اساس روند گذشته و شرایط فعلی پیشبینیهای قابل قبولی را در اختیار مدیران قرار میدهد. داده کاوی مدلهای پیش بینی تقاضا را پیادهسازی میکند، پیشبینی تقاضا برای محصولات فروشگاهها و مسیریابی موجودی مناسب برای تأمین نیازهای بازار را انجام میدهد. بدین شکل دادهکاوی به افزایش درآمد آنها کمک میکند.
کاهش هزینه
داده کاوی امکان استفاده کارآمد و تخصیص منابع را فراهم میکند. سازمانها میتوانند با پیشبینیهای دقیق تصمیم گیریهای خودکار را برنامه ریزی و اتخاذ کنند که منجر به کاهش هزینه میشود.
دیدگاه مشتری
این دادهها میتوانند بینش شرکتها را تغییر دهند به طوریکه شرکتها مدلهای داده کاوی را بر اساس دادههای مشتریان گسترش میدهند و به شناسایی خصوصیات و تفاوتهای کلیدی در بین مشتریان خود میپردازند. این بینش باعث نگهداری مشتری و سوددهی شرکت میشود.
چالش های داده کاوی
در حالی که داده کاوی یک فرآیند قدرتمند است، تحلیل دادهها با افزایش حجم آنها و پیچیدگیشان زمانبر میشود. در جایی که روزانه حجم عظیمی از اطلاعات از دادهها توسط شرکت ها جمع آوری میشود، تحلیل گران برای استخراج، تجزیه و تحلیل نیاز به روشهایی دارند که بتوانند به طور قابل توجهی دادههای بزرگ (بیگ دیتا) را پردازش کنند.
حجیم بودن داده ها
دادههای بزرگ پرکار هستند. در زمینه کار با دادههای بزرگ با چهار چالش اصلی مواجه خواهیم شد: حجم، تنوع، صحت و سرعت. هدف از داده کاوی تعادل بین این چالشها میباشد. این حجم عظیم از داده ها دو چالش اساسی را پیش رو قرار خواهد داد: اول، پیدا کردن صحیح دادهها دشوارتر است و دوم اینکه سرعت پردازش ابزارهای داده کاوی را کند میکند. ابزارهای داده کاوی باید برای پردازش همزمان طیف گستردهای از قالب های داده مجهز باشند.
مدلهای Over fit شده
تناسب بیش از حد، زمانی اتفاق میافتد که یک مدل به جای روندهای اساسی جمعیت، خطاهای طبیعی موجود در نمونه را توضیح دهد. اگر تعداد دادهها کم باشد مدلهای بدست آمده برای مسئله بی ربط میشود، اگر تعداد دادهها خیلی زیاد باشد رفتار به یک سری از مدلهای شناخته شده محدود میگردد. لازم است تعداد نمونه مورد نیاز به صورت بهینه انتخاب شود که به هیچ یک از این مشکلات دچار نشود.
ارزش معیار داده
از آنجا که سرعت دادهها افزایش اطلاعات و تنوع دادهها را دنبال میکند، شرکتها باید این مدلها را معیار قرار دهند و آنها را در کل جامعه آماری بکار گیرند. برای دستیابی به این معیار، سازمانها باید کامپیوترها، سرورها و نرم افزارهای قدرتمندی را برای رسیدگی به مقدار و تنوع دادههای شرکت داشته باشند.
حریم خصوصی و امنیت
افزایش نیاز به ذخیره سازی دادهها بسیاری از شرکت ها را وادار کرده است که به سمت محاسبات و رایانش ابری بروند، در حالی که رایانش ابری بسیاری از پیشرفتهای مدرن را در داده کاوی امکانپذیر کرده است اما ماهیت این سرویس، تهدیدهای امنیتی مهمی را ایجاد میکند. داده کاوی ابزاری قدرتمند است که دیدگاههای قانع کنندهای را در مورد مصرف کنندگان در اختیار کسب وکارها قرار میدهد. با این حال در بعضی موارد ممکن است کاوش دیدگاهها به نقض حریم شخصی منجر شود. سازمانها باید این رابطه را با مشتریان خود بسنجند و سیاستهایی را برای بهرهمندی از نظرات مصرف کنندگان تدوین نموده و این سیاستها را برای حفظ ارتباط قابل اعتماد به آنها اعلام نمایند.
انواع داده کاوی
در تقسیم بندی الگوریتمهای داده کاوی با تکنیک یادگیری ماشین به دو دسته کلی تقسیم میشوند: یادگیری نظارت شده و بدون نظارت.
یادگیری نظارت شده
یادگیری نظارت شده مجموعه دادههای برچسبگذاری شده با هدف پیش بینی یا طبقه بندی است. یک مثال، فیلترهای اسپم است که از یادگیری نظارت شده برای طبقه بندی ایمیلهای دریافتی به عنوان محتوای ناخواسته استفاده میکنند و به طور خودکار این پیام ها را از صندوق ورودی شما حذف میکنند.
مدلهای تحلیلی رایج مورد استفاده در رویکردهای داده کاوی تحت نظارت عبارتند از:
رگرسیون خطی
رگرسیون خطی مقدار متغیر دائمی را با استفاده از یک یا چند ورودی مستقل پیشبینی میکند. بنگاه داران املاک از رگرسیون خطی برای پیشبینی ارزش خانه بر اساس متر مربع، نسبت اتاق خواب به حمام، سال ساخته شده و کد پستی استفاده میکنند.
رگرسیون لجستیک
رگرسیون لجستیک با استفاده از یک یا چند ورودی مستقل احتمال متغیر اصلی را پیش بینی میکند. بانکها برای پیش بینی احتمال متقاضی وام به طور پیش فرض براساس نمره اعتبار، درآمد خانوار، سن و سایر عوامل شخصی از رگرسیون لجستیک استفاده میکنند.
سری زمانی
مدلهای سری زمانی ابزار پیش بینی کنندهای هستند که از زمان به عنوان متغیر مستقل اصلی استفاده میکنند.
شبکه های عصبی
شبکه عصبی یک مدل تحلیلی است که از در آن از ساختار مغز، سلولهای عصبی آن و اتصالات آنها الهام گرفته شده است. این مدلها در اصل در دهه ۱۹۴۰ ساخته شده است اما اخیراً محبوبیت آن را آمار شناسان و دانشمندان داده پی بردند.
نزدیکترین همسایگی K
از روش نزدیکترین همسایگی K برای طبقه بندی یک مشاهده جدید بر اساس مشاهدات گذشته استفاده میشود. بر خلاف روشهای قبلی، این روش مبتنی بر داده است نه مدل محور. این روش هیچ گونه فرضیهای راجع به دادهها ایجاد نمیکند و از فرآیندهای پیچیدهای برای تفسیر ورودیهای آن استفاده نمینماید. ایده اصلی مدل نزدیکترین همسایه این است که مشاهدات جدید را با شناسایی نزدیکترین همسایگان خود طبقه بندی میکند و بیشترین ارزش را به آن اختصاص میدهد.
یادگیری نظارت نشده
در یادگیری نظارت نشده مجموعه دادههای برچسبگذاری نشده بر فهم و توصیف دادهها تمرکز میکنند تا الگوهای اساسی در درون آن معلوم شود.
مدلهای تحلیلی رایج مورد استفاده در روشهای داده کاوی بدون نظارت عبارتند از:
خوشه بندی
مدلهای خوشه بندی دادههای مشابه را با هم در یک گروه قرار میدهند. یک مثال برای این روشها، مدل سازی ظاهری برای گروه بندی شباهت ها بین بخشها و شناسایی خوشهها و هدف قرار دادن گروههای جدید که مانند گروه موجود هستند میباشد.
تجزیه و تحلیل وابستگی
تجزیه و تحلیل وابستگی همچنین به عنوان تجزیه و تحلیل سبد بازار نیز شناخته شده است و برای شناسایی مواردی که اغلب در کنار هم اتفاق میافتد استفاده میشود. سوپر مارکتها معمولاً از این ابزار برای تشخیص محصولات جفت شده و پخش آنها در فروشگاه استفاده میکنند تا مشتریان را ترغیب کنند تا کالاهای بیشتری را انتخاب کرده و خریدهای خود را افزایش دهند.
تحلیل مؤلفه اصلی
از تجزیه و تحلیل مؤلفه اصلی برای نشان دادن همبستگی پنهان بین متغیرهای ورودی و ایجاد متغیرهای جدید به نام مؤلفههای اصلی استفاده میشود. این روشها همان اطلاعات موجود در دادههای اصلی را ضبط میکنند، اما دارای متغیرهای کمتری هستند. با کاهش تعداد متغیرهای مورد استفاده برای انتقال همان سطح اطلاعات، تحلیلگران میتوانند ابزار و دقت مدلهای داده کاوی تحت نظارت را افزایش دهند.
رویکردهای نظارت شده و نظارت نشده در عمل
هرچند که هر دو رویکرد نظارت شده و نظارت نشده به طور مستقل قابل استفاده است، ولی استفاده از هر دو روش در طی یک تحلیل بسیار متداول است. هر روش از مزایای منحصر به فرد خود برخوردار است و ترکیب روشها برای افزایش اعتبار، ثبات و سودمندی کلی مدل های داده کاوی بسیار موثر خواهد بود. مدلهای نظارت شده میتوانند از متغیرهایی که از روش بدون نظارت بدست میآیند استفاده کنند، به عنوان مثال یک متغیر خوشه ای در یک مدل رگرسیون به تحلیلگران این امکان را میدهد تا متغیرهای اضافی را از مدل حذف کرده و صحت آن را بهبود ببخشد.
ابزارهای داده کاوی
تعداد زیادی ابزار برای داده کاوی وجود دارد بنابراین مهم است که اهداف خاص خود را کاملاً درک کنید و آن را با ابزار و سیستم عامل مناسب مطابقت دهید. در این بخش به صورت مختصر به معرفی ابزار تحلیل دادهها میپردازیم.
Rapidminer
این نرم افزار که به زبان جاوا نوشته شده یکی از برترین نرم افزارها برای انجام تجزیه و تحلیل و پیش بینی است که محیط های یکپارچه ایی برای یادگیری عمیق، استخراج متن و یادگیری ماشین ارائه میدهد. این پلتفرم میتواند از سرورهای ثابت یا مبتنی بر رایانش ابری استفاده کند و در مجموعههای متنوعی از سازمانها پیاده سازی شده است.
Orange
یک نرم افزار متن باز و رایگان است که در پایتون نوشته شده است. یکی از بهترین برنامه ها برای تجزیه و تحلیل و داده کاوی پایه است. Orange با یک رابط کاربری منحصر به فرد و کاربر پسند، رویکردی کاربرگرا را برای داده کاوی در نظر گرفته است.
Mahout
یک نرم افزار متن باز است که برپایه فرآیند یادگیری بدون نظارت متمرکز شده است. این نرم افزار در ایجاد الگوریتمهای یادگیری ماشین برای خوشه بندی، طبقه بندی و فیلترهای مشترک مزایای زیادی دارد. این برنامه به ریاضیدانان، آمارشناسان و دانشمندان داده اجازه میدهد تا الگوریتم های خاص خود را ایجاد، آزمایش و پیاده سازی کنند. در حالی که Mahout مانند یک توصیه کننده عمل میکند، که سازمانها می توانند با حداقل تلاش از قابلیت های کامل آن استفاده کنند.
MicroStrategy
یک نرم افزار تجزیه و تحلیل اطلاعات کسب و کار و داده است که تمام مدلهای داده کاوی را دارد. این پلت فرم با داشتن طیف گستردهای از دروازهها و درایورهای بومی، میتواند به هر منبع اطلاعات سازمانی متصل شده و داده های آن را تجزیه و تحلیل کند. این نرم افزار میتواند عملکرد همه مدلهای داده کاوی را در زمان واقعی ردیابی و تجزیه و تحلیل کند و نتایج را بصورت دیدگاههای قابل بررسی برای تصمیم گیرندگان، به وضوح نشان دهد.