انبوه داده های بی معنا، یک معضل جدید

یک مثال ساده از صنعت بانکداری:

امروزه حجم عظیمی از هزاران مشتری در بانک مورد نظر بدست می آید. اطلاعاتی هچون مشخصات کامل کاربر (نام، نام خانوادگی، کد ملی، تاریخ و عملیات انجام شده و...) در سیستم ثبت میشود.

پس از گذشت مدتی، بانک یا هر سازمان دیگر انبوهی از داده های بی معنا دارد که در ظاهر نمی توان از آنها بهره ای برد.

سازمان اگر بخواهد بداند کدام مشتریان از چه خدماتی بیشتر استفاده کردند هیچ راهی ندارد، و نمیتواند دریابد که بیشترین و کمترین رضایت مشتریان چیست. در واقع آنها نمی دانند کدام خدمت دارای ارزش افزوده بیشتری در این صنعت است، در نهایت سازمان ها نمیتوانند از میان انبوه داده هیچ دانش مفیدی استخراج نمی کند.

 

داده کاوی به ما امکان می دهد:

  • از طریق حجم زیادی از اطلاعات، هرج و مرج و داده های تکراری، داده های مناسب در تصمیم گیری را انتخاب کنیم؛
  • داشتن درک کاملی از خواسته ها و نیازهای مربوطه سازمانی و سپس استفاده مناسب از آن اطلاعات برای ارزیابی نتایج احتمالی؛
  • تسریع در تصمیم گیری آگاهانه را ممکن می سازد؛
  • داده کاوی امروزه موضوع دانشی بسیار محبوبی در سازمان های پیشرفته است. بر خلاف سالهای گذشته، کل سازمان با اطلاعات موجود مرتبط است و داده کاوی ما را قادر به مدیریت این نوع داده های بزرگ میکند.

 

داده کاوی: شناسایی عیوب و بهبود کیفیت

از داده‌کاوی می‌توان برای شناسایی الگوهایی که می‌توانند به خرابی منجر شوند استفاده کرد؛

چنین شیوه‌هایی نه تنها در شناسایی محصولات معیوب کمک می‌کنند بلکه به‌صورت فنی پارامترهای مهم و تاثیرگذار بر کیفیت را نیز تعیین می‌کنند.

چند نمونه از کاربردها:

  • کنترل کیفیت
  • تعیین طرح‌های کنترل کیفی
  • شناسایی نوع خرابی
  • شناسایی مکانیزم خرابی قطعات مکانیکی
  • بهبود کیفیت
  • مهندسی کیفیت
  • پیش‌بینی احتمال خرابی

 

پیشینه و پایه داده کاوی

تاریخچه داده کاوی روندی طولانی داشته است، گاهی اوقات داده کاوی را به عنوان "کشف دانش در پایگاه داده ها" می نامند.

اصطلاح "داده کاوی" تا پیش از دهه 1990 مرسوم نبوده است، اما علوم پایه ی آن شامل سه رشته علمی متقابل ذیل است:

  1. علم آمار (مطالعه عددی روابط داده ها)،
  2. هوش مصنوعی (هوش انسان مانند نرم افزار و / یا ماشین)
  3. یادگیری ماشین (الگوریتم هایی که می توانند از داده ها برای پیش بینی استفاده کنند)

 

ویژگی های اصلی داده کاوی:

  • کشف اتوماتیک الگوها
  • پیش بینی احتمالی نتایج و خروجی ها
  • ایجاد اطلاعات مفید و اجرایی
  • تمرکز بر روی داده های بزرگ و مجموعه پایگاه های داده

 

داده کاوی چه فایده ای دارد؟

  • شناخت مشتریان سودآور: مشتریانی که بیشترین سود از آنها حاصل شده شناسایی شده و تلاش برای حفظ وفاداری مشتری آغاز میشود.
  • بهینه سازی سبد محصول:  شناخت محصولات پر فروش، محصولات سودآور، محصولات زیان ده از دیگر فواید داده کاوی است.
  • شناخت مشتریان وفادار و قدیمی:  مشتریان قدیمی شرکت چه کسانی هستند؟ با چه برنامه ای خرید می کنند؟ چه کالایی را دوست دارند؟ و چه کالایی باعث وفاداری آنها شده است؟
  • بررسی طول عمر مشتری: با استفاده از داده کاوی می توان طول عمر مشتری و چرخه آن، میزان سود حاصل  شده از هر مشتری در هر مرحله را بررسی نمود.
  • شناسایی رفتار مشتری:  با شناخت رفتار مشتریان و تطابق آن را با ویژگی های مشتری موجب عملکرد موفق در زمینه بخش بندی و قسمت بندی بازار میگردد.
  • بررسی عملکرد یک برنامه بازاریابی: بدون شک داده کاوی در بررسی عملکرد یک برنامه بازاریابی و تبلیغاتی انجام شده بسیار مفید خواهد بود.
  • کشف الگو و روند: با استفاده از داده کاوی و بررسی میزان خرید مشتریان می توان الگوهای فصلی خرید را استخراج کرده، روند کاهش و یا افزایش آن را تحلیل نموده و در صورت نیاز اقدام اصلاحی انجام داد.
  • پیش بینی فروش: با استفاده از اطلاعات گذشته و بهره بردن از الگو و ارتباط میان داده ها و روند آنها، پیش بینی فروش در آینده و یافتن روند فصلی فروش میسر شده و میتوان برای فروش یک محصول جدید برنامه ریزی نمود.

 

مثال های تجاری از کاربرد داده کاوی

  1. شرکت ویدئوی خانگی Blockbuster از داده های سابق مشتریان استفاده میکند و به انها ویدئوهایی پیشنهاد می دهد تا آنها را تماشا کنند.
  2. والمارت Walmart (بزرگترین خرده فروش زنجیره ای جهان) برای بهبود عملکرد عرضه کنندگان خود از داده کاوی در مقیاسی وسیع استفاده کرده است. داده های ۲۹۰۰ فروشگاه در ۶ کشور برای این کار استفاده میشوند و در هر بار ۷٫۵ ترابایت داده مورد بررسی قرار میگیرد.
  • ۳۵۰۰ تامین کننده به داده های دسترسی پیدا کردند تا بتوانند الگوهای خرید مشتریان، عملکرد یک کالا و محصول خاص را بررسی کنند و برنامه های خود را بر این پایه و اساس بهبود دهند.
  • برای مثال، این داده ها می توانند عادات منظم یک کاربر خاص را پیدا کنند. علاوه بر این، ساعت های اوج استفاده از سیستم را در می یابند. این اطلاعات استخراج شده می تواند برای افزایش کارایی سیستم و ایجاد محیطی کاربر پسندتر مورد استفاده قرار گیرد. 
  • با این حال، داده کاوی یک کار ساده نیست. زمان مشخصی طول می کشد تا داده ها با یک روش خاصی جمع آوری شوند.

 

چه نوع داده هایی میتواند مورد کاوش قرار گیرند؟

  • اپلیکیشن ها و مجموعه داده های مبتنی بر پایگاه داده
  • پایگاه داده های ارتباطی، انبار داده ها، داده های تراکنشی
  • مجموعه داده ها و اپلیکیشن های پیشرفته
  • داده های حسگرها، در حال جریان، ترتیب یافته یا مبتنی بر زمان
  • داده های ساختاری، نمودارها یا داده های شبکه های اجتماعی
  • پایگاه داده های چند رسانه ای، متنی یا مرتبط با موضوع خاص
  • وب جهان گستر

 

یک شرکت داده کاوی چگونه کار میکند؟

داده کاوی یک روش حل مسئله مبتنی بر داده های موجود است. شرکت داده کاوی دایکه بر اساس استاندارد جهانی کریسپ دی ام (CRISP-DM) فرایند حل مسئله را بشکل زیر به اجرا می گذارد:

  • در ابتدای فرایند، مشکلات کارفرما/ سازمان مشخص خواهد شد و در پایان با کمک هوش مصنوعی، راهکارهایی برای حل آن مشکلات در اختیار سازمان قرار خواهد گرفت.
  • پس از یافتن مشکلات در ابتدای فرایند داده کاوی، ریز اطلاعات ثبت شده در سازمان یا خط تولید آن دریافت می شود.
  • بر اساس این اطلاعات، مکانیزم های مرتبط در کسب و کار، مدل سازی شده و سپس با کمک متدهای «یادگیری ماشین» راه حل هایی برای از بین بردن مشکلات کسب و کار در چارچوب گزارشات مستند و نرم افزار رایانه ای در اختیار کارفرما قرار میگیرد.

 

مراحل عمومی داده کاوی

  1. جمع آوری داده ها - اولین گام جمع آوری داده ها است.در این گام باید بتوانیم تجزیه و تحلیل ساده ای را انجام دهیم و باید اطمینان حاصل کنیم که منبع داده قابل اعتماد است.
  2. تمیز کردن داده ها - از آنجا که مقدار زیادی از داده ها را دریافت می کنیم، باید اطمینان حاصل کنیم که فقط اطلاعات لازم را جدا کرده و اطلاعات اضافی و ناخواسته (نویز) را حذف کنیم. در غیر این صورت،بدون تمیز کردن اطلاعات ،تصمیم گیری ها نادرست خواهد بود.
  3. شناسایی الگوها - تجزیه و تحلیل داده ها و پیدا کردن الگوهای در این گام انجام می شود
  4. تفسیر - نهایتاً داده های تجزیه و تحلیل شده تفسیر می شود تا نتیجه های مهم مانند پیش بینی ها و اتخاذ تصمیمات گرفته میشود.

 

برخی از روش هاي کاوش: الگوهاي پرتکرار

  • روش Apriori: الگوریتم/روشی مبتنی بر تولید و آزمایش الگوهاي کاندید شده است
  • روش FPGrowth : روشی براي ساخت الگوهاي مکرر از طریق گسترش و توسعه آنها
  • روش ECLAT : کاوش الگوهاي پر تکرار بر اساس چیدمان داده ها به صورت عمودي

 

تحلیل الگو هاي پر تکرار چیست؟

  • الگوي پر تکرار: یک الگو (مجموعه اي از آیتم ها، زیر دنباله ها، ساختارها و ...) که مکرراً در مجموعه داده ها تکرار می شوند.
  • انگیزه: یافتن نظم ذاتی در داده ها:
    • چه محصولاتی معمولا با هم خریداري می شوند؟
    • مایع ظرف شویی و اسکاچ
    • بعد از خرید یک محصول چه محصولات دیگري خریداري میشود؟
    • بعد از خرید کامپیوتر، خرید آنتی ویروس
    • چه نوع DNA به یک داروي جدید حساس است؟
    • بعد از ملاقات یک صفحه وب خاص، کاربران به چه صفحه اي مراجعه می کنند؟
  • کاربرد ها: تحلیل سبد خرید مشتریان، طراحی کاتالوگ محصولات و تبلیغات، تحلیل فروش، طراحی فروشگاهها، تحلیل وبلاگ ها click stream، تحلیل دنباله DNA  و ...

 

مفاهیم اولیه: الگو هاي پر تکرار ( Frequent Patterns)

  • مجموعه اي از یک یا چند آیتم را Itemset  مینامند
  • Itemset که حاوی k آیتم (x={I1, I2, I3, …, Ik}) باشد را K-Itemset مینامند
  • فرکانس تکرار یک Itemset را که نشاندهنده تعداد تراکنش هایی است (حاوی Itemset) را Support count مربوط به آن Itemset مینامند.
  • برای یک Itemset، نسبت تراکنش های حاوی Itemset به کل تراکنش ها را Support می نامند
  • Frequent Itemset: در صورتیکه مقدار Support یک Itemset از حد آستانه مشخص کمترنباشد، آنItemset  را پرتکرار میگویند.

 

الگوهاي پر تکرار و قوانین وابستگی

براي استخراج قوانین وابستگی، دو اقدام زیر ضروری است:

  1. پیدا کردن تمام الگوهاي پر تکرار: بر اساس تعریفsupport، در این مرحله تمام الگوهاي پر تکرار که مقدار Min-Support آنها از یک حد آستانه کمتر نباشد را مشخص می کنیم.
  2. تولید قوانین وابستگی قوي از روي الگو هاي پر تکرار:
  • در این مرحله، قوانین تا آنجا استخراج می شوند که میزان جذابیت آنها از یک حد آستانه بیشتر باشد.
  • براي تعیین میزان جذابیت یک قانون، دو پارامتر براي هر قانون تعریف می شود.

الگوهای مورد کاوش از منظر طبقه بندی

  • طبقه بندی و پیش بینی شناسه ها

  • مدلهای ساخت و ایجاد توابع
  • کلاسه بندی و تمایز مفاهیم برای پیش بینی های آتی
  • مثال: گروه کشورها بر اساس آب و هوا، یا گروه خودروها بر اساس مصرف سوخت

مدلهای نوعی:

درخت تصمیم گیری، کلاسه بندی بَیزی، ماشینهای برداری، شبکه های خنثی، کلاسه بندی مبتنی بر قوانین یا مبتنی بر الگو، رگرسیون لجستیکی،...

کاربردهای نوعی

  • کشف جرائم کارتهای اعتباری، کلاسه بندی ستاره ها، بیماری ها، صفحات وب، ...
  • الگوهای مورد کاوش از منظر خوشه بندی
  • یادگیریِ غیر نظارت شده (مثل: شناسه نامعلوم کلاسها)
  • گروه داده ها برای شکل دهی معیار جدید (مثل خوشه بندی توزیع خانه ها)
  • اصل به حداکثر رساندن شباهتهای درون کلاسی و به حداقل رساندن شباهتهای بین کلاسی.
  • در این زمینه متدها و کاربردهای متنوعی وجود دارد

 

برخی از زمینه های کاربردی داده کاوی

  • ارتباطات: شرکت های چند رسانه ای و ارتباطات از راه دور می توانند از مدل های تحلیلی برای شناسایی کوه ها از اطلاعات مشتریان استفاده کنند، به آنها کمک می کند تا رفتار مشتری را پیش بینی کنند و کمپین های بسیار هدفمند و مناسب را ارائه دهند.
  • بیمه: شرکت های بیمه با استفاده از تکنیک های تحلیلی می توانند مشکلات پیچیده ای را در رابطه با تقلب، انطباق، مدیریت ریسک و سقوط مشتری حل کنند. شرکت ها از تکنیک های داده کاوی به قیمت محصولات به طور موثر در خطوط کسب و کار استفاده کرده اند و روش های جدیدی برای ارائه محصولات رقابتی به مشتریان موجود خود دارند.
  • تحصیلات: داده کاوی به آموزگاران کمک می کند تا داده های دانش آموزان را در دسترس داشته باشند، پیش بینی سطوح دستاورد و دانش آموزان یا گروه هایی که نیاز به توجه بیشتری دارند، به طور دقیق مشخص شود.
  • ساخت: هماهنگ کردن برنامه های عرضه با پیش بینی های تقاضا ضروری است، همانطور که تشخیص زودهنگام مشکلات، تضمین کیفیت و سرمایه گذاری در ارزش کسب و کار است. پیش بینی دارایی های تولیدکنندگان، پیش بینی های تعمیر و نگهداری، به حداکثر رساندن زمان آماده سازی و غیره
  • بانکداری: الگوریتم های خودکار، به بانک ها در درک مشتریان خود و همچنین میلیاردها تراکنش در قلب سیستم مالی کمک می کند تا در مورد خطرات بازار، تشخیص به موقع تقلب، مدیریت تعهدات قانونی و بازده مطلوب سرمایه گذاری های بازاریابی اقدام کنند.
  • خرده فروشی: داده کاوی بانک اطلاعاتی مشتریان می تواند به بهبود روابط، بهینه سازی کمپین های بازاریابی و پیشنهادهای ویژه فروش کمک کند.

 

حل مسئله به کمک داده کاوی  

1- درک کسب و کار: کارفرما مشکلی در کسب و کار خود دارد. مشکل خود را با متخصص داده کاوی مطرح می کند. این گام اول است. در حالت دیگر، کارفرما نمی تواند مشکلات کسب و کار خود را تشخیص دهد اما می داند سیستم کسب و کار وی دارای نقصان است. در این حالت طرح مسئله را نیز بر عهده ی متخصص داده کاوی می گذارد.

2-  بررسی و درک داده ها:  متخصص داده کاوی، داده های ثبت شده در کسب و کار کارفرما را از وی درخواست می کند و به بررسی داده ها می پردازد. متخصص داده کاوی با توجه به حجم و کیفیت داده ها مسئله ی طرح شده در مرحله ی قبل را تعدیل می کند تا نتیجه ی پروسه ی داده کاوی واقع بینانه تر بشود.

3- آماده سازی داده ها:  در مرحله ی سوم عملیات آماده سازی داده ها توسط متخصص داده کاوی صورت می گیرد. آماده سازی داده ها شامل این موارد می شود:

  • یکی کردن انبارهای متفاوت داده در کسب و کار کارفرما 
  • شناسایی و حذف داده های زائد و اشتباه 
  • تغییر فرمت داده ها متناسب با مسئله ی تعدیل شده در مرحله ی دوم

4- مدل سازی: قدم چهارم مدلسازی داده های آماده سازی شده است. با توجه به متدهای متفاوت، مدل های متفاوتی ساخته می شود و بهترین مدل ها از نظر متخصص داده کاوی انتخاب می شود.

5- تست و ارزیابی مدل: مدل های ساخته شده تست و ارزیابی می شوند و بهترین مدل از نظر مسئله ی طرح شده در مرحله ی یک، انتخاب می شود. سپس در تبادل نظر با کارفرما، موثر بودن مدل انتخاب شده بررسی می شود. در صورتی که مدل انتخاب شده کمکی در حل مسئله نمی کند کل فرایند از مرحله ی یک دوباره انجام می شود.

6- توسعه مدل نهایی:  در صورتی که ارزیابی ها رضایت بخش باشند راه حل هایی در قالب توسعه ی مدل نهایی ارائه می شوند که مشکلات مطرح شده در مرحله ی یک را برطرف می کنند. مدل نهایی به متخصص داده کاوی نشان می دهد که رفتار مجموعه ی کسب و کار کارفرما در مورد مشکلات مطرح شده در مرحله ی یک چگونه است.

معرفی برخی مجلات معتبر در حوزه داده کاوی

 

منابع

 

جهت دسترسی به ارائه کامل "آشنایی با داده کاوی" اینجا کلیک کنید