شکست و یادگیری سریع
علم داده به یکی از موضوعات پرطرفدار در تجارت تبدیل شده است. شرکتها با معرفی تکنیکهای مدلسازی نوین که شیوه کسب و کار را تغییر داده است، موجب مختل شدن صنایع قدیمی شدهاند. مشاهده این پیروزیهای بزرگ در علم داده، رقابت را به سمت استفاده از مدلهای پیشبینی سوق داده است. در سال 2019 گارتنر تخمین زد که تنها 20 درصد از پروژههای علم داده تا سال 2022 واقعا نتایج معنیداری خواهند داشت. بله! این نتیجه به خصوص با توجه به هزینه نیروی کار و قدرت محاسباتی لازم برای ساخت مدلها یک نتیجه بسیار ناخوشایند است. این آمار دور از انتظار نیز نیست، از آنجا که همه در حال رقابت برای گنجاندن علم داده در سازمان خود هستند، بسیاری از آنها رویکرد مناسبی را در پیش نمیگیرند.
شکست سریع به چه معنا است؟
مفهوم شکست سریع ریشه در توسعه نرمافزار دارد. به عنوان مثال هنگامی که یک برنامه نتواند در مدت زمان معین با موفقیت اجرا شود، یک پیغام خطا نمایش داده شده و کار تمام میگردد. در علم داده نیز، شکست سریع به معنای حرکت رو به جلو با یک ایده و آزمایش آن است، اما اگر این کار در مدت زمان معینی ارزش کافی برای ما ایجاد نکرد، آن را به اتمام میرسانیم. هدف از این کار آن است که کارهای مختلفی را در مدت زمان کوتاهی امتحان کنید و توسعه محصول را در جایی که ارزشی برای آن وجود ندارد متوقف کنید و در غیر این صورت کار خود را توسعه دهید.
دلایل شکست پروژههای علم داده
دلایل مختلفی برای شکست چنین پروژههایی وجود دارد، در ادامه به تعدادی از آنها اشاره خواهیم کرد.
کمبود داده
علم داده ترکیبی از ریاضیات، مهندسی کامپیوتر و هوش تجاری است. منبع سوخت و تقویت علم داده، داده است. دادهها حیاتیترین مولفه یک پروژه علم داده هستند. یکی از بزرگترین علل شکست پروژههای علم داده وجود دادههای نامناسب است. مواردی مانند دادههای ناقص، دارای خطا، دادههایی که به مشکل فعلی مرتبط نمیشوند و در دسترس نبودن دادهها جزئی از این دست هستند. بدون دادههای در حجم بالا و مرتبط، هیچ روشی برای ایجاد یک راه حل مبتنی بر علم داده وجود ندارد. همانطور که بدون وجود پایه قوی نمیتوان خانهای محکم ساخت، انتظار ساخت روشی مبتنی بر علم داده بدون وجود داده مناسب نداشته باشید.
عدم پشتیبانی کسب و کار
برترین دانشمندان داده افرادی هستند که میتوانند نیازمندیهای کسب و کار را به مدلهای ریاضی و الزامات فنی مرتبط سازند. درک اینکه یک کسب و کار چگونه عملیات خود را روی یک موضوع خاص اجرایی میکند، مدلسازی مسئله و کشف بهترین رویکرد برای حل آن بسیار مهم است. اگرچه این موارد ساده به نظر میرسند اما در نهایت میتواند منجر به جلسات و بحثهای زیادی شود که سهامداران کلیدی کسب و کار را به چالش بکشاند. اگر ذینفعان به طور کامل روی فرآیند سرمایهگذاری نکنند و از تیم توسعه حمایت نکنند، فرصتهای زیادی از دست خواهند رفت و نهایتا منجر به عملکرد پایین مدل خواهد شد.
عدم پشتیبانی فناوری
در صورتی که یک مدل ساخته و به طور کامل توسط کسب و کار پذیرفته شده باشد، مرحله بعدی اجرای مدل بر اساس زمانبندی و به روزرسانی بر اساس آخرین دادهها است. در حالی که این مورد یک تغییر کوچک به نظر میرسد، با این وجود ورود مدل به محیط تولید یکی از دشوارترین بخشهای استفاده از یک روش مبتنی بر علم داده است. بین زیرساختهای فناوری اطلاعات سازمانها، تفاوتهای ظریف زیادی وجود دارد، از جمله منابع داده مبتنی بر ابر یا حتی برخی از فایلهای اکسل، در دسترس بودن منابع برای اجرای مدل در یک زمان معین و زمان بندی کار، بنابراین در تمام فرآیندها، فناوری اطلاعات نقش دارد. شکست در ایجاد و ادغام یک مدل در اکوسیستم شرکت و عدم اجرایی کردن آن منجر به شکست راه حل میشود. بنابراین سرمایهگذاری بر روی علم داده منوط به رعایت شرایط خاصی است که در ادامه به آن میپردازیم.
چگونه یک پروژه علم داده یا یک استارتاپ مبتنی بر علم داده را با موفقیت اجرا کنیم؟
بسیاری از پروژههای علم داده پیش از اینکه منجر به شکست در مقیاس بزرگ شوند، قابل اجتناب هستند. کلید آنکه پروژه علم داده خود را مقیاسپذیر و عملی گردانیم آن است که از قدمهای کوچک برای انجام آن شروع کنیم. به این معنا که در ابتدا یک نمونه ساده و اولیه از نمونه کار و هدفی که به دنبال ساخت آن هستیم ارائه کرده و در طول زمان کاربردها و ویژگیهای مدل خود را افزایش دهیم. برای درک بهتر به نمودار زیر دقت کنید. این نمودار فرآیند Agile توسعه یک مدل مبتنی بر علم داده را از نظر زمان و وسعت انجام کار نشان میدهد.
مرحله اثبات مفهوم (PoC)
مرحله PoC مرحله ابتدایی در ارائه راه حلی مبتنی بر داده محسوب میشود. هدف از این مرحله درک در دسترس بودن و بررسی کیفیت مناسب دادههایی است که میخواهیم استفاده کنیم و اینکه آیا علم داده رویکرد مناسبی برای حل مشکل موجود است یا خیر. در این مرحله چند جلسه برای بررسی دادهها صورت میگیرد و همچنین یک مدل اولیه در مقیاس کوچک ساخته میشود. در واقع تمرکز PoC بر ساخت یک محصول ابتدایی و ساده است که در آن تنها راهی که محصول قرار است پیش بگیرد مشخص گردد. مدت زمان PoC بسته به اهداف و در دسترس بودن ذینفعان ممکن است متفاوت باشد اما ممکن است بین 2 تا 6 هفته به طول انجامد. اگر نتایج این مرحله امیدوارکننده نباشد، به راحتی میتوان تعامل را متوقف و تمرکز را بر موضوع دیگری گذاشت. اگر نتایج خوب باشد نیز مشخص است که میتوان از پروژه سود بیشتری به دست آورد.
نمونه اولیه (Prototype)
مرحله بعدی در این فرآیند، ساخت یک نمونه اولیه است. این مرحله دادهها، هوش تجاری و مدلسازی اولیه را یک قدم به جلو میبرد. معمولا در این مرحله، کاربردها و تکنیکهایی برای اصلاح و افزایش دقت به مدل افزوده میشود. نمونههای اولیه جایی است که کسب و کار با انجام بررسیهای مدل درگیر فرآیند میشود. آیا مدل منطقی است؟ آیا راه حل درستی برای حل مشکل ایجاد میکند؟ این مدل به احتمال زیاد مدل کاملی نخواهد بود اما نتایج خوبی را برای ما فراهم میکند. در این مرحله دانشمند داده سعی میکند متغیرهای جدیدی را از منبع دادهای به روز شده اضافه کند تا تاثیر آن روی مدل را ببیند. این مرحله معمولا بین 8 تا 12 هفته به طول میانجامد و باز هم مانند مرحله قبل، اگر نتایج این مرحله امیدوارکننده نباشد، قبل از سرمایهگذاری کار متوقف میشود.
محصول اولیه قابل استفاده (MVP)
اگر نتیجه بگیریم که ادامه راه منطقی است، مرحله بعدی آن است که مدل را به یک محصول تبدیل کنیم. در این مرحله تنها تمرکز بر روی دادهها نیست بلکه به محصول دقت میکنیم. این نمونه میتواند به مرحله اجرا در مناطق مختلفی برسد. در این مرحله نیز به بهبود مدل و تعدیل آن بر اساس نتایج حاصل میپردازیم. بررسی بیزینس نیز در این مرحله ضروری است و با توجه به آن دانشمندان داده میتوانند متوجه تفاوتهای تجارت و محیط کار خود شوند و به تنظیم مدل خود متناسب با نیاز بیزینس بپردازند. در پایان این مرحله محصول مانند خانهای است که ساخته شده اما لولهکشی و برق ندارد. این محصول میتواند به همین شکل کار کند و اطلاعاتی را ارائه کند اما قابل اعتماد نبوده و نمیتوان به آن اجازه اجرای خودکار داد. MVPها معمولا بین 12 تا 18 هفته به طول میانجامند و مجددا اگر نتایج رضایتبخش نباشند، میتوان قبل از اختصاص منابع بزرگتر مسیر را متوقف کرد.
تولید (Production)
اگر محصولی به این مرحله برسد، معمولا نشان دهنده آن است که سرمایهگذاری روی آن ارزشمند خواهد بود. در این مرحله، محصول با توجه به نیازهای تجارت مربوطه مقیاسپذیر میگردد تا پاسخگوی نیاز بیزینس در ردههای مختلف آن باشد، بنابراین درک نیاز بیزینس مورد هدف حائز اهمیت است. در این بین ممکن است برخی تجارتها نیاز داشته باشند که هر هفته منابع داده خود را به روز کنند تا نتایج بهتری از مدل بگیرند در حالی که برخی دیگر نیاز به، به روزرسانی در زمان خاص داشته باشند تا با مدلهای دیگرتداخل زمانی نداشته باشند و این معیارها وابسته به شرکتهای مختلفی است که محصول به آنها ارائه میشود. در یک شرکت کوچک ایجاد این هماهنگیها ممکن است ساده باشد، این در حالی است که این موضوع برای سازمانهای متوسط تا بزرگ میتواند بسیار دشوار باشد. تولید در این مرحله ممکن است بیش از 12 هفته طول بکشد اما نیاز به نظارت مکرر و دریافت فیدبک برای بهبود محصول است تا به نتایج رضایت بخشی برسیم.
نتیجهگیری
رویکرد مقیاسبندی شده ذکر شده در بالا کمک میکند که مشخص گردد آیا خطری از نظر در دسترس بودن داده، پشتیبانی کسب و کار و پشتیبانی فناوری وجود دارد یا خیر. در مراحل PoC و MVP مشخص خواهد شد که آیا پروژه با مشکل مواجه خواهد شد یا خیر. به این نتیجه رسیدیم که بهتر است به جای ساخت محصول از ابتدا، آن را به مراحل کوچکتری تقسیمبندی کنیم و در هر مرحله نتیجه را سنجیده و پس از آن به کار خود ادامه دهیم، در غیر این صورت کار هم برای دانشمندان داده و هم مسئولان کسب و کار فرسایشی شده و نهایتا نتیجه خوبی هم نمیدهد. راهحلهای مبتنی بر علم داده معمولا پیچیده هستند و استفاده از آنها برای رسیدن به نتیجه عالی زمانبر است. زمانی که این راهحلها به درستی کنار هم قرار داده شده و ساخته شوند، میتواند صنایع را متحول سازد.
منبع https://www.tessellationtech.io/how-to-implement-data-science/
1 دیدگاه
سلام . مفید بود