علم داده در دهه گذشته پدیدار شده است و روشی را که ما در کسب و کارها استفاده میکردیم و همچنین آمادهسازی نسل جوان برای کار در آینده را تغییر داده است. اما این پیشرفت سریع موجب ابهامات زیادی در مورد این شد که چگونه میتوانیم از علم داده برای به دست آوردن بینش عملی از دادههایمان استفاده کنیم. در این مطلب میخواهیم به این موضوع بپردازیم که علم داده چیست، کار آن چیست و چه کسی دانشمند داده است. نگاهی به ادبیات پژوهشی انداختیم تا پاسخهای این پرسشها را کنار هم قرار دهیم.
بخشی از انگیزه این تحقیق این بود که به عنوان پایهای برای تحقیق و توسعه عمل کند و بتواند مناطقی را شناسایی کند که در آن ابزارهای تجزیه و تحلیل بصری نیاز برآورده نشده ای را برطرف کند.علم داده چیست؟
به نظر میرسد علم داده برای افراد مختلف مفاهیم متفاوتی دارد. برای برخی چیز جدیدی نیست و فقط کاربرد عملی تکنیکهای عملی است که برای مدت طولانی وجود داشته است. برای دیگران، این دیدگاه بسیار محدود است زیرا علم داده نه تنها به روشهای آماری بلکه به تکنیکهای محاسباتی نیز نیاز دارد تا کاربرد این روشها را عملی کند. به عنوان مثال، برای یک دانشمند داده تنها کافی نیست که رگرسیون خطی را درک کند، بلکه باید بداند که چگونه آن را در مقیاس بزرگ و برای تعداد انبوهی از داده پیاده کند، چیزی که بخشی از آموزش آماری نیست. با این حال حتی کسانی که استدلال میکنند که این علم چیزی فراتر از آمار کاربردی است، ممکن است هنوز در گفتن اینکه چیز جدیدی است تردید کنند. عمل جمعآوری و تجزیه و تحلیل دادهها، حتی مقادیر زیاد داده از دیرباز بخشی از تحقیقات علمی، به عنوان مثال در زیستشناسی یا فیزیک بوده است. بسیاری بر این باورند که علم داده فقط بسط آنچه که قبلا در علم تجربی اتفاق افتاده است، میباشد.
اما دیدگاه سومی نیز در اینجا وجود دارد و آن این است که علم داده واقعا چیزی جدید و متفاوت از آمار و همچنین رویکردهایی است که دانشمندان هنگام مطالعه اتمها و ژنها استفاده میکنند. گرد هم آوردن آمار و علوم کامپیوتر با تخصص موضوعی لازم، منجر به چالشهای جدیدی شده است که به طور منحصربهفردی توسط علم داده مورد توجه قرار میگیرد و از عهده دانشمندان علم داده برمیآید. علاوه بر این، کار انجام شده توسط دانشمندان داده از انواع دیگر تجزیه و تحلیل دادهها متمایز است زیرا به گستره وسیعتری از مهارتهای چندرشتهای نیاز دارد. تحقیقات نشان داده است که علم داده واقعا مبحث جدیدی و متفاوتی است و از این نظر یک تعریف کاری ایجاد کردیم که به عنوان پایه کار عمل میکند:
علم داده یک رشته میانرشتهای است که هدف آن یادگیری بینشهای جدید از دادههای دنیای واقعی از طریق کاربرد تکنیکهای آماری و محاسباتی است.
این تعریف از آن جهت دارای اهمیت است که به ما کمک میکند که چالشها و نیازهای برآورده نشده افراد مشغول به کار در این حوزه را درک کنیم. که در درجه اول از چالشهای کار با دادههای دنیای واقعی در مقابل شبیهسازی شده همراه است و نیز چالشهایی که استفاده از روشهای آماری و محاسباتی در دادههای با این مقیاس دارند.
کار علم داده چیست ؟
نکته مهم این است که یک تعریف کارآمد از علم داده دامنه تحقیق را محدود میکند. به جای در نظر گرفتن همه انواع ممکن از تجزیه و تحلیل دادهها که ممکن است فرد بخواهد انجام دهد، به انواع تجزیه و تحلیلهایی که دانشمندان داده انجام میدهند از نزدیک نگاه میکنیم. این تمایز مهم است زیرا مراحل خاصی که مثلا یک فیزیکدان تجربی برای تجزیه و تحلیل دادهها انجام میدهد، با گام تحلیلی که ممکن است یک دانشمند داده انجام دهد، متفاوت است، حتی اگر مشترکاتی داشته باشد.
چندین استاندارد صنعتی برای تجزیه کار علم داده وجود دارد. روش اول KDD (یا دانش در کشف دادهها) بود که با گذشت زمان توسط دیگران اصلاح و گسترش یافت. از این مشتقات و همچنین مصاحبه با دانشمندان داده، چارچوبی ایجاد کردیم که دارای چهار فرآیند مرتبه بالاتر (آمادهسازی، تجزیه و تحلیل، استقرار و ارتباط) و چهارده فرآیند درجه پایینتر است. با استفاده از خطوط قرمز موارد خاصی که بصریسازی دادهها نقش مهمی در این علم ایفا میکند را نشان دادهایم.افرادی که در علم داده کار میکنند چه کسانی هستند؟
در طول این سالها، برداشتهای مختلفی از دانشمند داده شنیدهایم. یکی از تعابیر زیبا آن است که دانشمند داده کسی است که در مهندسی نرمافزار بهتر از یک متخصص آمار و در آمار بهتر از یک مهندس نرمافزار است.
با این حال، همانطور که ما در مطالعات موجود درباره دانشمند داده تحقیق میکردیم، چیزی که انتظار آن را نداشتیم اما ثابت و مهم ظاهر شد، این بود که دانشمندان داده چقدر متنوع بودند و چگونه نقش آنها در رابطه با فرآیندهای علم داده خاص تغییر کرد. به عنوان مثال ممکن است به ظهور مهندس داده به عنوان یک نقش متمایز اما همچنان مجاور علم داده توجه کرده باشید. با افزایش پیچیدگی کار علم داده، دانشمندن داده تخصصیتر شدند و اغلب در جنبههای خاصی از کار داده مشغول بودند. مصاحبههای انجام شده توسط هریس و همکاران در سال 2012 این روند را شناسایی کرده بود، در طول زمان این روند شتاب گرفته است. آنها مشاهده کردند که این تنوع در نقشهای علم داده (از جمله مهندس داده و دانشمند داده) منجر به ارتباط نادرست بین دانشمندان داده و کسانی میشود که از آنها کمک میخواهند. بر اساس نتایج کار هریس و با بررسی 12 مطالعه که در مجموع هزار نفر را به عنوان دانشمند داده شناسایی کردند، 9 نقش متمایز معرفی شده است. این افراد دارای مجموعه مهارتها و پیشینههای متفاوتی بودهاند که در امتداد محوری از آمار، علوم کامپیوتر و حوزه تخصصی نشان دادهایم. همچنین طراحی انسان محور را در توصیف مهارتهای علم داده گنجاندهایم، زیرا در نظر گرفتن تاثیر محصولات داده، مانند یک برنامه تشخیص چهره اهمیت فزایندهای دارد. میخواهیم تاکید کنیم که این نقشها مقولههای مطلق نیستند و بین آنها ارتباطاتی وجود دارد. همچنین به محققان کمک میکند که درک بهتری از پیشینه افراد داشته باشند.علم داده چگونه روش ساخت ابزارهای بصریسازی و تحلیل دادهها را تغییر میدهد؟
مهمترین نکته این است که تعریف و چارچوب ما از علم داده چیست و کارمندان این حوزه میتوانند به ما در ساخت ابزارهای بصریسازی بهتر کمک کنند چراکه نظرات آنها و تجربه آنها میتواند مفید باشد. ما در حال حاضر از این چارچوب برای ایجاد معیارهای واضحتر بر اساس تجربیات مشتری در Tableau استفاده کردیم. ما میتوانیم با دقت بهتری دقیقا آن چیزی را که مشتری میخواهد انجام دهد، مشخص کنیم. با دانستن اینکه نقش دانشمند داده به خودی خود تنوع زیادس را شامل میشود، با طبقهبندی افراد در 9 نقش علم داده خود، میتوانیم تشخیص دهیم که هر شخص چه کاری را انجام میدهد. چنین طبقهبندی درک وظایفی که سیستمهای بصریسازی ما باید پشتیبانی کنند و اینکه در چه سطحی باشند را آسانتر میکند. به عنوان مثال یک تحلیلگر فنی و مهندس AI / ML، که دو نقش متفاوت است که آن را طبقهبندی و مشخص کردیم، هر دو میتوانند در یک کار مشترک در ساخت مدل شرکت کنند اما نیازهای کاملا متفاوتی دارند. اگر آن تفاوتها را نادیده بگیریم، خطر ساخت ابزار اشتباه برای هر دو نقش را خواهیم داشت.
اما مهمتر از همه آن است که این چارچوب و تقسیمبندی کمک میکند که بتوان در مورد آنچه در اکوسیستم فعلی ابزارهای تجزیه و تحلیل بصری وجود ندارد فکر کرد. یکی از نتایجی که گرفتیم تمرکز محدود ابزارهای بصریسازی مدلهای یادگیری ماشین و همچنین فقدان ابزارهایی بود که سایر جنبههای حیاتی کار علم داده مانند آمادهسازی، استقرار یا ارتباطات را پشتیبانی کند. این کمبود ابزار کار دانشمندان داده را در هر نقشی که باشند دشوار میکند و باعث تاثیرگذاری بر تصمیمگیری و اقدامات سازمانی میگردد. این تحقیق در مورد علم داده به کارشناسان Tableau کمک کرد تا چالشها را آشکار و از آن برای ساختن ابزارهای بهتری که به مردم کمک میکند دادههایشان را ببینند و درک کنند، استفاده کنند.
1 دیدگاه
درود بر شما. بسیار عالی