داده کاوی چیست ؟

نوشته رضوان مدبر آخرین به روز رسانی 19 تیر,1399

داده کاوی یا Data Mining کاوش و تجزیه و تحلیل داده‌های بزرگ برای کشف الگوها و قوانین معنی‌دار در میان حجم زیادی از داده‌ها است.

در این نوشتار به معرفی و کاربرد استفاده از این رشته جدید که در حوزه مطالعاتی علوم مختلف مورد توجه قرار گرفته است می‌پردازیم. استخراج و کشف داده‌ها در این حوزه با هدف پیش بینی نتایج در آینده می‌باشد، علاوه بر این داده کاوی پل ارتباطی بین آمار، هوش مصنوعی، یادگیری ماشین (ML) (الگوریتم‌هایی است که می‌توانند از داده‌ها برای پیش بینی استفاده کنند) و الگو شناسی است.

کاربردهای داده کاوی

بازاریابی و هدف گذاری بر مبنای بانکهای اطلاعاتی
مدیریت ریسک اعتباری و امتیاز دهی اعتبار
تشخیص و پیشگیری از کلاهبرداری
بیوانفورماتیک بهداشت و درمان
فیلتر کردن اسپم
سیستم های توصیه کننده
تحلیل احساسات
داده کاوی کیفی (QDM)

نحوه انجام داده کاوی

فرآیند داده کاوی پذیرفته شده شامل شش مرحله است:

۱- تبدیل مسئله کسب و کار به مسئله داده کاوی

اولین قدم تعیین اهداف پروژه و درک صحیح از کسب و کار است و اینکه چگونه داده کاوی می‌تواند در رسیدن به آن هدف به شما کمک کند.

۲- درک داده‌ها

داده‌های مرتبط با کسب و کار از کلیه منابع قابل استفاده در این مرحله جمع‌آوری می‌شود و باید ارتباط آن با اهداف پروژه شناسایی شود.

۳- آماده سازی داده

سپس داده‌ها پالایش و تصحیح شده و برای فاز تحلیل آماده می‌گردند و به نوعی داده‌های پرت و ناسازگار حذف می‌شوند. پردازش داده‌ها بسته به میزان داده‌های تحلیل شده و تعداد منابع می‌تواند زمان زیادی به طول بیانجامد. بنابراین برای بهبود سرعت فرایند داده کاوی به جای بارگذاری یک سیستم واحد، سیستم‌های توزیع شده در سیستم مدرن مدیریت پایگاه داده (DBMS) استفاده می‌شوند.

۴- مدل سازی داده‌ها

در این مرحله تحلیل گر از مدله‌ای ریاضی برای یافتن الگوهای داده ها و با استفاده از ابزارهای پیشرفته برای داده کاوی استفاده می‌کند.

۵- ارزیابی مدل‌ها

مدل‌های استخراج شده مورد ارزیابی قرار می‌گیرند تا معلوم شود که مدل‌ها تا چه حد به اهداف کسب و کار نزدیک است، آیا به مرحله استقرار برود یا خیر؟ تیم داده‌کاوی داده‌ها را به صورت بصری و با ابزار گرافیکی نمایش می‌دهند تا درک بهتری از معنای آن‌ها حاصل شود.

۶- استقرار مدل‌ها

در صورتیکه داده استخراج شده با اهداف اولیه پروژه مطابقت داشته باشد می‌تواند استقرار یابند و به عنوان یک بستر اطلاعاتی هوشمند کسب و کار برای ارائه یک منبع حقیقی برای شناسایی داده‌های سرویس استفاده شود.

مزایای داده کاوی

داده کاوی دارای مزایایی می‌باشد که در زیر به چند مورد از آنها اشاره می‌شود:

تصمیم گیری خودکار

داده کاوی به سازمانها اجازه می‌دهد تا داده‌ها را به طور مداوم تجزیه و تحلیل کنند و تصمیمات مهم و عادی را بدون تأخیر در قضاوت انسان به طور خودکار انجام دهند. بانک‌ها میتوانند فوراً معاملات جعلی را تشخیص دهند، درخواست بازبینی کنند و حتی امنیت اطلاعات شخصی مشتریان در مقابل سرقت هویت آنها را تضمین کنند. این مدل‌ها در الگوریتم‌های عملیاتی یک شرکت مستقر هستند که می‌توانند داده‌ها را بطور مستقل جمع آوری و تجزیه و تحلیل کنند و به کار بگیرند تا تصمیم گیری را ساده تر و فرآیندهای روزانه یک سازمان را ارتقا دهند.

پیش گویی صحیح و پیش بینی

برنامه ریزی یک فرآیند مهم در هر سازمان است. داده کاوی برنامه ریزی را تسهیل می‌کند و بر اساس روند گذشته و شرایط فعلی پیش‌بینی‌های قابل قبولی را در اختیار مدیران قرار می‌دهد. داده کاوی مدل‌های پیش بینی تقاضا را پیاده‌سازی می‌کند، پیش‌بینی تقاضا برای محصولات فروشگاه‌ها و مسیریابی موجودی مناسب برای تأمین نیازهای بازار را انجام می‌دهد. بدین شکل داده‌کاوی به افزایش درآمد آن‌ها کمک می‌کند.

کاهش هزینه

داده کاوی امکان استفاده کارآمد و تخصیص منابع را فراهم می‌کند. سازمان‌ها می‌توانند با پیش‌بینی‌های دقیق تصمیم گیری‌های خودکار را برنامه ریزی و اتخاذ کنند که منجر به کاهش هزینه می‌شود.

دیدگاه مشتری

این داده‌ها می‌توانند بینش شرکتها را تغییر دهند به طوریکه شرکته‌ا مدل‌های داده کاوی را بر اساس داده‌های مشتریان گسترش می‌دهند و به شناسایی خصوصیات و تفاوت‌های کلیدی در بین مشتریان خود می‌پردازند. این بینش باعث نگهداری مشتری و سوددهی شرکت می‌شود.

چالش های داده کاوی

در حالی که داده کاوی یک فرآیند قدرتمند است، تحلیل داده‌ها با افزایش حجم آنها و پیچیدگی‌شان زمان‌بر می‌شود. در جایی که روزانه حجم عظیمی از اطلاعات از داده‌ها توسط شرکت ها جمع آوری م‌یشود، تحلیل گران برای استخراج، تجزیه و تحلیل نیاز به روش‌هایی دارند که بتوانند به طور قابل توجهی داده‌های بزرگ (بیگ دیتا) را پردازش کنند.

حجیم بودن داده ها

داده‌های بزرگ پرکار هستند. در زمینه کار با داده‌های بزرگ با چهار چالش اصلی مواجه خواهیم شد: حجم، تنوع، صحت و سرعت. هدف از داده کاوی تعادل بین این چالش‌ها می‌باشد. این حجم عظیم از داده ها دو چالش اساسی را پیش رو قرار خواهد داد: اول، پیدا کردن صحیح داده‌ها دشوارتر است و دوم اینکه سرعت پردازش ابزارهای داده کاوی را کند می‌کند. ابزارهای داده کاوی باید برای پردازش همزمان طیف گسترده‌ای از قالب های داده مجهز باشند.

مدل‌های Over fit شده

تناسب بیش از حد، زمانی اتفاق میا‌فتد که یک مدل به جای روندهای اساسی جمعیت، خطاهای طبیعی موجود در نمونه را توضیح دهد. اگر تعداد داده‌ها کم باشد مدل‌های بدست آمده برای مسئله بی ربط می‌شود، اگر تعداد داده‌ها خیلی زیاد باشد رفتار به یک سری از مدل‌های شناخته شده محدود می‌گردد. لازم است تعداد نمونه مورد نیاز به صورت بهینه انتخاب شود که به هیچ یک از این مشکلات دچار نشود.

ارزش معیار داده

از آنجا که سرعت داده‌ها افزایش اطلاعات و تنوع داده‌ها را دنبال می‌کند، شرکت‌ها باید این مدل‌ها را معیار قرار دهند و آنها را در کل جامعه آماری بکار گیرند. برای دستیابی به این معیار، سازمانها باید کامپیوترها، سرورها و نرم افزارهای قدرتمندی را برای رسیدگی به مقدار و تنوع داده‌های شرکت داشته باشند.

حریم خصوصی و امنیت

خواندنی ها

هاست پایتون چیست؛ ۴ مزیت مهم آن

۲۵ بهمن,۱۴۰۱ ۳۴۰

زیر و بم زبان برنامه نویسی R

۹ آذر,۱۳۹۹ ۲,۳۱۵

افزایش نیاز به ذخیره سازی داده‌ها بسیاری از شرکت ها را وادار کرده است که به سمت محاسبات و رایانش ابری بروند، در حالی که رایانش ابری بسیاری از پیشرفت‌های مدرن را در داده کاوی امکانپذیر کرده است اما ماهیت این سرویس، تهدیدهای امنیتی مهمی را ایجاد می‌کند. داده کاوی ابزاری قدرتمند است که دیدگاه‌های قانع کننده‌ای را در مورد مصرف کنندگان در اختیار کسب وکارها قرار می‌دهد. با این حال در بعضی موارد ممکن است کاوش دیدگاه‌ها به نقض حریم شخصی منجر شود. سازمانها باید این رابطه را با مشتریان خود بسنجند و سیاست‌هایی را برای بهره‌مندی از نظرات مصرف کنندگان تدوین نموده و این سیاست‌ها را برای حفظ ارتباط قابل اعتماد به آنها اعلام نمایند.

انواع داده کاوی

در تقسیم بندی الگوریتم‌های داده کاوی با تکنیک یادگیری ماشین به دو دسته کلی تقسیم می‌شوند: یادگیری نظارت شده و بدون نظارت.

یادگیری نظارت شده

یادگیری نظارت شده مجموعه داده‌های برچسب‌گذاری شده با هدف پیش بینی یا طبقه بندی است. یک مثال، فیلترهای اسپم است که از یادگیری نظارت شده برای طبقه بندی ایمیل‌های دریافتی به عنوان محتوای ناخواسته استفاده می‌کنند و به طور خودکار این پیام ها را از صندوق ورودی شما حذف می‌کنند.

مدله‌ای تحلیلی رایج مورد استفاده در رویکردهای داده کاوی تحت نظارت عبارتند از:

رگرسیون خطی

رگرسیون خطی مقدار متغیر دائمی را با استفاده از یک یا چند ورودی مستقل پیش‌بینی می‌کند. بنگاه داران املاک از رگرسیون خطی برای پیش‌بینی ارزش خانه بر اساس متر مربع، نسبت اتاق خواب به حمام، سال ساخته شده و کد پستی استفاده می‌کنند.

رگرسیون لجستیک

رگرسیون لجستیک با استفاده از یک یا چند ورودی مستقل احتمال متغیر اصلی را پیش بینی می‌کند. بانک‌ها برای پیش بینی احتمال متقاضی وام به طور پیش فرض براساس نمره اعتبار، درآمد خانوار، سن و سایر عوامل شخصی از رگرسیون لجستیک استفاده می‌کنند.

سری زمانی

مدل‌های سری زمانی ابزار پیش بینی کننده‌ای هستند که از زمان به عنوان متغیر مستقل اصلی استفاده می‌کنند.

شبکه های عصبی

شبکه عصبی یک مدل تحلیلی است که از در آن از ساختار مغز، سلول‌های عصبی آن و اتصالات آنها الهام گرفته شده است. این مدل‌ها در اصل در دهه ۱۹۴۰ ساخته شده است اما اخیراً محبوبیت آن را آمار شناسان و دانشمندان داده پی بردند.

نزدیکترین همسایگی K

از روش نزدیکترین همسایگی K برای طبقه بندی یک مشاهده جدید بر اساس مشاهدات گذشته استفاده می‌شود. بر خلاف روش‌های قبلی، این روش مبتنی بر داده است نه مدل محور. این روش هیچ گونه فرضیه‌ای راجع به داده‌ها ایجاد نمی‌کند و از فرآیندهای پیچیده‌ای برای تفسیر ورودی‌های آن استفاده نمی‌نماید. ایده اصلی مدل نزدیکترین همسایه این است که مشاهدات جدید را با شناسایی نزدیکترین همسایگان خود طبقه بندی می‌کند و بیشترین ارزش را به آن اختصاص می‌دهد.

یادگیری نظارت نشده

در یادگیری نظارت نشده مجموعه داده‌های برچسب‌گذاری نشده بر فهم و توصیف داده‌ها تمرکز می‌کنند تا الگوهای اساسی در درون آن معلوم شود.

مدله‌ای تحلیلی رایج مورد استفاده در روشهای داده کاوی بدون نظارت عبارتند از:

خوشه بندی

مدل‌های خوشه بندی داده‌های مشابه را با هم در یک گروه قرار می‌دهند. یک مثال برای این روش‌ها، مدل سازی ظاهری برای گروه بندی شباهت ها بین بخش‌ها و شناسایی خوشه‌ها و هدف قرار دادن گروه‌های جدید که مانند گروه موجود هستند می‌باشد.

تجزیه و تحلیل وابستگی

تجزیه و تحلیل وابستگی همچنین به عنوان تجزیه و تحلیل سبد بازار نیز شناخته شده است و برای شناسایی مواردی که اغلب در کنار هم اتفاق می‌افتد استفاده می‌شود. سوپر مارکت‌ها معمولاً از این ابزار برای تشخیص محصولات جفت شده و پخش آنها در فروشگاه استفاده می‌کنند تا مشتریان را ترغیب کنند تا کالاهای بیشتری را انتخاب کرده و خریدهای خود را افزایش دهند.

تحلیل مؤلفه اصلی

از تجزیه و تحلیل مؤلفه اصلی برای نشان دادن همبستگی پنهان بین متغیرهای ورودی و ایجاد متغیرهای جدید به نام مؤلفه‌های اصلی استفاده می‌شود. این روش‌ها همان اطلاعات موجود در داده‌های اصلی را ضبط می‌کنند، اما دارای متغیرهای کمتری هستند. با کاهش تعداد متغیرهای مورد استفاده برای انتقال همان سطح اطلاعات، تحلیلگران می‌توانند ابزار و دقت مدل‌های داده کاوی تحت نظارت را افزایش دهند.

رویکردهای نظارت شده و نظارت نشده در عمل

هرچند که هر دو رویکرد نظارت شده و نظارت نشده به طور مستقل قابل استفاده است، ولی استفاده از هر دو روش در طی یک تحلیل بسیار متداول است. هر روش از مزایای منحصر به فرد خود برخوردار است و ترکیب روش‌ها برای افزایش اعتبار، ثبات و سودمندی کلی مدل های داده کاوی بسیار موثر خواهد بود. مدله‌ای نظارت شده می‌توانند از متغیرهایی که از روش بدون نظارت بدست می‌آیند استفاده کنند، به عنوان مثال یک متغیر خوشه ای در یک مدل رگرسیون به تحلیلگران این امکان را می‌دهد تا متغیرهای اضافی را از مدل حذف کرده و صحت آن را بهبود ببخشد.

ابزارهای داده کاوی

تعداد زیادی ابزار برای داده کاوی وجود دارد بنابراین مهم است که اهداف خاص خود را کاملاً درک کنید و آن را با ابزار و سیستم عامل مناسب مطابقت دهید. در این بخش به صورت مختصر به معرفی ابزار تحلیل داده‌ها میپردازیم.

Rapidminer

این نرم افزار که به زبان جاوا نوشته شده یکی از برترین نرم افزارها برای انجام تجزیه و تحلیل و پیش بینی است که محیط های یکپارچه ایی برای یادگیری عمیق، استخراج متن و یادگیری ماشین ارائه می‌دهد. این پلتفرم می‌تواند از سرورهای ثابت یا مبتنی بر رایانش ابری استفاده کند و در مجموعه‌های متنوعی از سازمان‌ها پیاده سازی شده است.

Orange

یک نرم افزار متن باز و رایگان است که در پایتون نوشته شده است. یکی از بهترین برنامه ها برای تجزیه و تحلیل و داده کاوی پایه است. Orange با یک رابط کاربری منحصر به فرد و کاربر پسند، رویکردی کاربرگرا را برای داده کاوی در نظر گرفته است.

Mahout

یک نرم افزار متن باز است که برپایه فرآیند یادگیری بدون نظارت متمرکز شده است. این نرم افزار در ایجاد الگوریتم‌های یادگیری ماشین برای خوشه بندی، طبقه بندی و فیلترهای مشترک مزایای زیادی دارد. این برنامه به ریاضیدانان، آمارشناسان و دانشمندان داده اجازه می‌دهد تا الگوریتم های خاص خود را ایجاد، آزمایش و پیاده سازی کنند. در حالی که Mahout مانند یک توصیه کننده عمل می‌کند، که سازمان‌ها می توانند با حداقل تلاش از قابلیت های کامل آن استفاده کنند.

MicroStrategy

یک نرم افزار تجزیه و تحلیل اطلاعات کسب و کار و داده است که تمام مدل‌های داده کاوی را دارد. این پلت فرم با داشتن طیف گسترده‌ای از دروازه‌ها و درایورهای بومی، می‌تواند به هر منبع اطلاعات سازمانی متصل شده و داده های آن را تجزیه و تحلیل کند. این نرم افزار می‌تواند عملکرد همه مدل‌های داده کاوی را در زمان واقعی ردیابی و تجزیه و تحلیل کند و نتایج را بصورت دیدگاه‌های قابل بررسی برای تصمیم گیرندگان، به وضوح نشان دهد.