داده کاوی فرآیند درک داده ها از طریق پاکسازی داده های خام، یافتن الگوها، ایجاد مدل ها و آزمایش آن مدل ها است. این شامل آمار، یادگیری ماشین و سیستم های پایگاه داده است.
داده کاوی اغلب شامل چندین پروژه داده است، بنابراین به راحتی می توان آن را با تجزیه و تحلیل، حاکمیت داده و سایر فرآیندهای داده اشتباه گرفت. این مقاله داده کاوی را تعریف می کند، مزایا و چالش های آن را به اشتراک می گذارد و نحوه عملکرد داده کاوی را بررسی می کند.
داده کاوی سابقه ای طولانی دارد. با محاسبات در دهه 1960 تا 1980 ظهور کرد. از لحاظ تاریخی، داده کاوی یک فرآیند فشرده کدگذاری دستی بود. متخصصان داده برای تکمیل دقیق تکنیک های داده کاوی به دانش آماری و مقداری دانش زبان برنامه نویسی نیاز دارند.
داده کاوی دقیقاً تجزیه و تحلیل داده نیست
همانطور که بحث شد، داده کاوی ممکن است با سایر پروژه های داده اشتباه گرفته شود. فرآیند داده کاوی شامل پروژه هایی مانند پاکسازی داده ها و تجزیه و تحلیل اکتشافی است، اما این فقط این شیوه ها نیست. متخصصان دادهکاوی دادهها را تمیز و آماده میکنند، مدلهایی ایجاد میکنند، آن مدلها را در برابر فرضیهها آزمایش میکنند و آن مدلها را برای پروژههای تحلیلی یا هوش تجاری منتشر میکنند.
به عبارت دیگر، تجزیه و تحلیل و پاکسازی داده ها بخشی از داده کاوی هستند، اما آنها تنها بخشی از کل هستند.
مزایای داده کاوی
داده کاوی زمانی مؤثرتر است که به صورت استراتژیک برای خدمت به یک هدف تجاری، پاسخ به سؤالات تجاری یا تحقیقاتی یا بخشی از راه حل یک مشکل به کار گرفته شود. دادهکاوی به پیشبینیهای دقیق، تشخیص الگوها و موارد پرت کمک میکند و اغلب به پیشبینی کمک میکند. علاوه بر این، دادهکاوی به سازمانها کمک میکند تا شکافها و خطاها را در فرآیندها شناسایی کنند، مانند تنگناها در زنجیرههای تامین یا ورود نامناسب دادهها.
داده کاوی چگونه کار می کند؟
اولین قدم در داده کاوی تقریباً همیشه جمع آوری داده است. سازمانهای امروزی میتوانند هر روز سوابق، گزارشها، دادههای بازدیدکنندگان وبسایت، دادههای برنامه، دادههای فروش و موارد دیگر را جمعآوری کنند. جمعآوری و نگاشت دادهها اولین قدم خوب برای درک محدودیتهای کاری است که میتوان با دادههای مورد نظر انجام داد و از آنها پرسید.
فرآیند استاندارد بین صنعتی برای داده کاوی (CRISP-DM) یک دستورالعمل عالی برای شروع فرآیند داده کاوی است. این استاندارد چندین دهه پیش ایجاد شد و هنوز یک الگوی محبوب برای سازمان هایی است که تازه شروع به کار کرده اند.
6 فاز CRISP-DM
CRISP-DM شامل یک گردش کار شش فازی است. به گونه ای طراحی شده بود که انعطاف پذیر باشد. تیم های داده مجاز و تشویق می شوند تا در صورت نیاز به مرحله قبلی برگردند. این مدل همچنین فرصت هایی را برای پلتفرم های نرم افزاری فراهم می کند که به انجام یا افزایش برخی از این وظایف کمک می کند.
1. درک کسب و کار
پروژه های جامع داده کاوی ابتدا با شناسایی اهداف و محدوده پروژه شروع می شوند. ذینفعان کسب و کار سوالی می پرسند یا مشکلی را بیان می کنند که داده کاوی می تواند به آن پاسخ دهد یا حل کند.
2. درک داده ها
هنگامی که مشکل کسب و کار درک شد، زمان جمع آوری داده های مربوط به سؤال و درک مجموعه داده ها فرا می رسد. این داده ها اغلب از منابع متعدد، از جمله داده های ساخت یافته و داده های بدون ساختار می آیند. این مرحله ممکن است شامل برخی تحلیلهای اکتشافی برای کشف برخی الگوهای اولیه باشد. در پایان این مرحله، تیم داده کاوی زیرمجموعه داده ها را برای تحلیل و مدل سازی انتخاب کرده است.
3. آماده سازی داده ها
این مرحله با کار فشرده تر شروع می شود. آماده سازی داده ها شامل آماده سازی مجموعه داده های نهایی است که شامل تمام داده های مرتبط مورد نیاز برای پاسخ به سؤال تجاری است. ذینفعان ابعاد و متغیرها را برای کشف و آماده سازی مجموعه داده های نهایی برای ایجاد مدل شناسایی خواهند کرد.
4. مدل سازی
در این مرحله، تکنیک های مدل سازی مناسب برای داده های داده شده را انتخاب می کنید. این تکنیکها میتوانند شامل خوشهبندی، مدلهای پیشبینی، طبقهبندی، تخمین یا ترکیبی باشند. Front Health از مدلسازی آماری و تحلیلهای پیشبینی برای تصمیمگیری در مورد گسترش برنامههای مراقبتهای بهداشتی به سایر جمعیتها استفاده کرد.
اگر تکنیک مدلسازی را انتخاب میکنید که نیاز به انتخاب متغیرهای دیگر یا تهیه منابع مختلف دارد، ممکن است مجبور شوید به مرحله آمادهسازی دادهها بازگردید.
5. ارزیابی
پس از ایجاد مدلها، باید آنها را آزمایش کرده و میزان موفقیت آنها را در پاسخ به سؤالی که در مرحله اول مشخص شد، بسنجید. مدل ممکن است به جنبههایی از مواردی که در نظر گرفته نشده پاسخ دهد، و ممکن است لازم باشد مدل را ویرایش کنید یا سؤال را ویرایش کنید.
این مرحله به گونهای طراحی شده است که به شما امکان میدهد به پیشرفت تاکنون نگاه کنید و مطمئن شوید که در مسیر درست برای دستیابی به اهداف تجاری قرار دارد. اگر اینطور نیست، ممکن است قبل از آماده شدن پروژه برای مرحله استقرار، نیاز به حرکت به عقب به مراحل قبلی وجود داشته باشد.
6. استقرار
در نهایت، زمانی که مدل دقیق و قابل اعتماد شد، زمان به کارگیری آن در دنیای واقعی فرا می رسد. استقرار می تواند در داخل سازمان انجام شود، با مشتریان به اشتراک گذاشته شود، یا از آن برای تهیه گزارشی برای ذینفعان برای اثبات قابلیت اطمینان آن استفاده شود. کار با تکمیل آخرین خط کد به پایان نمی رسد.
استقرار مستلزم تفکر دقیق، یک برنامه توسعه و راهی برای اطمینان از اینکه افراد مناسب به درستی مطلع هستند. تیم داده کاوی مسئول درک مخاطب از پروژه است.
انواع تکنیک های داده کاوی
داده کاوی شامل تکنیک های متعددی برای پاسخ به سوال تجاری یا کمک به حل یک مشکل است. این بخش فقط مقدمه ای بر دو تکنیک داده کاوی است و در حال حاضر جامع نیست.
Classification / طبقه بندی
رایج ترین تکنیک داده کاوی، classification یا همان طبقه بندی داده است. برای انجام این کار، یک متغیر هدف را شناسایی کنید و سپس آن متغیر را به سطح مناسبی از دستههای جزئیات تقسیم کنید. به عنوان مثال، متغیر «سطح شغل» ممکن است به «سطح ورودی»، «همکار» و «بالغ» تقسیم شود. با سایر زمینهها مانند سن و سطح تحصیلات، میتوانید مدل دادههای خود را برای پیشبینی سطح شغلی که احتمال بیشتری دارد فرد داشته باشد، آموزش دهید.
میتوانید برای یک فارغالتحصیل 22 ساله اخیر یک ورودی اضافه کنید، و مدل دادهها میتواند به طور خودکار آن فرد را در موقعیت «سطح ورودی» طبقهبندی کند. بیمه یا مؤسسات مالی مانند بیمه PEMCO از طبقه بندی برای آموزش الگوریتم های خود برای شناسایی تقلب و نظارت بر ادعاها استفاده می کنند.
Clustering / خوشه بندی
خوشه بندی یا همان کلاسترینگ یکی دیگر از تکنیک های رایج داده کاوی است که سوابق، مشاهدات یا موارد را بر اساس شباهت گروه بندی می کند. متغیر هدف مانند طبقه بندی وجود نخواهد داشت. در عوض، کلاسترینگ فقط به معنای جداسازی مجموعه داده ها به زیر گروه ها است.
این روش می تواند شامل گروه بندی سوابق کاربران بر اساس منطقه جغرافیایی یا گروه سنی باشد. به طور معمول، کلاسترینگ دادهها در زیر گروهها آمادهسازی برای تجزیه و تحلیل است. زیر گروه ها به ورودی های یک تکنیک متفاوت تبدیل می شوند.
چگونه از اشتباهات داده کاوی جلوگیری کنیم
داده کاوی یک فرآیند قدرتمند و مفید برای کاوش داده ها برای پیش بینی الگوها یا نتایج است. متأسفانه، انجام نادرست داده کاوی آسان است. اگر رهبران شما دانش تحلیلی یا آماری برای نظارت بر نرم افزار ندارند، نباید از داده کاوی استفاده کنید.
تکنیکهای استخراج نادرست میتوانند مدلهای نادرستی ایجاد کنند که منجر به عدم دقت میشود. علاوه بر این، اگر تیم از اطلاعات شناسایی شخصی در فعالیتهای داده کاوی استفاده میکند، باید اطمینان حاصل کند که از مقررات مطابقت و استانداردهای حاکمیتی پیروی میکنند.
چه کسی داده کاوی را در یک سازمان انجام می دهد؟
تخصص داده کاوی اغلب تابع یا توانایی نقش دانشمند داده یا تحلیلگر داده است. دادهکاوی معمولاً به پروژههای بزرگ با مدیریت پروژه گسترده و متقابل نیاز دارد و میتواند به تیمهای تحلیلی یا تحلیل تجاری نردبانی برسد. برخی از سازمانها برای ساختن اسکریپتهای یادگیری ماشین یا هوش مصنوعی به متخصصان دادهکاوی مراجعه میکنند، بنابراین مهارت و دانش در این موارد اغلب یک شایستگی اصلی است.
در سازمان های تحقیقاتی یا دانشگاهی، متخصصان داده کاوی احتمالاً دانشمندان داده یا تحلیلگر نامیده می شوند و می توانند به عنوان بخشی از یک آزمایشگاه واحد یا به عنوان بخشی از یک مرکز خدمات یا مرکز عالی تیم برای بسیاری از آزمایشگاه ها وجود داشته باشند.
داده کاوی و R
مشتریان، شرکا و محققان ما از داده کاوی و R برای نوآوری و به حداکثر رساندن بهره وری استفاده کرده اند. به عنوان مثال، ولز فارگو برای به دست آوردن بینش روشن نیاز داشت تا داده های کاربر را از 70 میلیون مشتری پاک کند.
تیم داده آنها توانستند از نرم افزار تبلو Tableau و R برای به حداکثر رساندن قدرت محاسباتی خود و تکمیل پروژههای بزرگ بسیار سریعتر از ابزارهای سنتی استفاده کنند. پلتفرمهای مدرن به کاربران این امکان را میدهد تا بدون تیمهای دادهای زیاد، عمیقاً وارد دادهکاوی شوند. درباره استفاده از R در پروژه های داده کاوی خود بیشتر بیاموزید.
دیدگاهتان را بنویسید