بازتاب علم داده در یک دهه و آینده ابزارهای بصری سازی

علم داده در دهه گذشته پدیدار شده است و روشی را که ما در کسب و کارها استفاده می‌کردیم و همچنین آماده‌سازی نسل جوان برای کار در آینده را تغییر داده است. اما این پیشرفت سریع موجب ابهامات زیادی در مورد این شد که چگونه می‌توانیم از علم داده برای به دست آوردن بینش عملی از داده‌هایمان استفاده کنیم. در این مطلب می‌خواهیم به این موضوع بپردازیم که علم داده چیست، کار آن چیست و چه کسی دانشمند داده است. نگاهی به ادبیات پژوهشی انداختیم تا پاسخ‌های این پرسش‌ها را کنار هم قرار دهیم.

بخشی از انگیزه این تحقیق این بود که به عنوان پایه‌ای برای تحقیق و توسعه عمل کند و بتواند مناطقی را شناسایی کند که در آن ابزارهای تجزیه و تحلیل بصری نیاز برآورده نشده ای را برطرف کند.

علم داده چیست؟

به نظر می‌رسد علم داده برای افراد مختلف مفاهیم متفاوتی دارد. برای برخی چیز جدیدی نیست و فقط کاربرد عملی تکنیک‌های عملی است که برای مدت طولانی وجود داشته است. برای دیگران، این دیدگاه بسیار محدود است زیرا علم داده نه تنها به روش‌های آماری بلکه به تکنیک‌های محاسباتی نیز نیاز دارد تا کاربرد این روش‌ها را عملی کند. به عنوان مثال، برای یک دانشمند داده تنها کافی نیست که رگرسیون خطی را درک کند، بلکه باید بداند که چگونه آن را در مقیاس بزرگ و برای تعداد انبوهی از داده پیاده کند، چیزی که بخشی از آموزش آماری نیست. با این حال حتی کسانی که استدلال می‌کنند که این علم چیزی فراتر از آمار کاربردی است، ممکن است هنوز در گفتن اینکه چیز جدیدی است تردید کنند. عمل جمع‌آوری و تجزیه و تحلیل داده‌ها، حتی مقادیر زیاد داده از دیرباز بخشی از تحقیقات علمی، به عنوان مثال در زیست‌شناسی یا فیزیک بوده است. بسیاری بر این باورند که علم داده فقط بسط آنچه که قبلا در علم تجربی اتفاق افتاده است، می‌باشد.

علم داده از سه دیدگاه

اما دیدگاه سومی نیز در اینجا وجود دارد و آن این است که علم داده واقعا چیزی جدید و متفاوت از آمار و همچنین رویکردهایی است که دانشمندان هنگام مطالعه اتم‌ها و ژن‌ها استفاده می‌کنند. گرد هم آوردن آمار و علوم کامپیوتر با تخصص موضوعی لازم، منجر به چالش‌های جدیدی شده است که به طور منحصربه‌فردی توسط علم داده مورد توجه قرار می‌گیرد و از عهده دانشمندان علم داده برمی‌آید. علاوه بر این، کار انجام شده توسط دانشمندان داده از انواع دیگر تجزیه و تحلیل داده‌ها متمایز است زیرا به گستره وسیع‌تری از مهارت‌های چندرشته‌ای نیاز دارد. تحقیقات نشان داده است که علم داده واقعا مبحث جدیدی و متفاوتی است و از این نظر یک تعریف کاری ایجاد کردیم که به عنوان پایه کار عمل می‌کند:

علم داده یک رشته میان‌رشته‌ای است که هدف آن یادگیری بینش‌های جدید از داده‌های دنیای واقعی از طریق کاربرد تکنیک‌های آماری و محاسباتی است.

این تعریف از آن جهت دارای اهمیت است که به ما کمک می‌کند که چالش‌ها و نیازهای برآورده نشده افراد مشغول به کار در این حوزه را درک کنیم. که در درجه اول از چالش‌های کار با داده‌های دنیای واقعی در مقابل شبیه‌سازی شده همراه است و نیز چالش‌هایی که استفاده از روش‌های آماری و محاسباتی در داده‌های با این مقیاس دارند.

کار علم داده چیست ؟

علم داده در 4 وجه
کار علمی با 4 مرحله در بالا ( آماده‌سازی، تجزیه و تحلیل، استقرار و ارتباطات) و 14 فرآیند درجه پایین‌تر انجام می‌شود. فرآیندهایی که با رنگ قرمز مشخص شده‌اند، آنهایی هستند که عمدتا برای مشاهده و بصری‌سازی داده‌ها استفاده می‌شوند. اما این مانع استفاده از آن در سایر جنبه‌های علم داده نمی‌شود.

نکته مهم این است که یک تعریف کارآمد از علم داده دامنه تحقیق را محدود می‌کند. به جای در نظر گرفتن همه انواع ممکن از تجزیه و تحلیل داده‌ها که ممکن است فرد بخواهد انجام دهد، به انواع تجزیه و تحلیل‌هایی که دانشمندان داده انجام می‌دهند از نزدیک نگاه می‌کنیم. این تمایز مهم است زیرا مراحل خاصی که مثلا یک فیزیکدان تجربی برای تجزیه و تحلیل داده‌ها انجام می‌دهد، با گام تحلیلی که ممکن است یک دانشمند داده انجام دهد، متفاوت است، حتی اگر مشترکاتی داشته باشد.

چندین استاندارد صنعتی برای تجزیه کار علم داده وجود دارد. روش اول KDD (یا دانش در کشف داده‌ها) بود که با گذشت زمان توسط دیگران اصلاح و گسترش یافت. از این مشتقات و همچنین مصاحبه با دانشمندان داده، چارچوبی ایجاد کردیم که دارای چهار فرآیند مرتبه بالاتر (آماده‌سازی، تجزیه و تحلیل، استقرار و ارتباط) و چهارده فرآیند درجه پایین‌تر است. با استفاده از خطوط قرمز موارد خاصی که بصری‌سازی داده‌ها نقش مهمی در این علم ایفا می‌کند را نشان داده‌ایم.

افرادی که در علم داده کار می‌کنند چه کسانی هستند؟

نقش های مختلف در علم داده
نُه نقش علم داده که در دوازده مطالعه عمیق با دانشمندان داده پیدا کردیم

در طول این سال‌ها، برداشت‌های مختلفی از دانشمند داده شنیده‌ایم. یکی از تعابیر زیبا آن است که دانشمند داده کسی است که در مهندسی نرم‌افزار بهتر از یک متخصص آمار و در آمار بهتر از یک مهندس نرم‌افزار است.

با این حال، همانطور که ما در مطالعات موجود درباره دانشمند داده تحقیق می‌کردیم، چیزی که انتظار آن را نداشتیم اما ثابت و مهم ظاهر شد، این بود که دانشمندان داده چقدر متنوع بودند و چگونه نقش آنها در رابطه با فرآیندهای علم داده خاص تغییر کرد. به عنوان مثال ممکن است به ظهور مهندس داده به عنوان یک نقش متمایز اما همچنان مجاور علم داده توجه کرده باشید. با افزایش پیچیدگی کار علم داده، دانشمندن داده تخصصی‌تر شدند و اغلب در جنبه‌های خاصی از کار داده مشغول بودند. مصاحبه‌های انجام شده توسط هریس و همکاران در سال 2012 این روند را شناسایی کرده بود، در طول زمان این روند شتاب گرفته است. آنها مشاهده کردند که این تنوع در نقش‌های علم داده (از جمله مهندس داده و دانشمند داده) منجر به ارتباط نادرست بین دانشمندان داده و کسانی می‌شود که از آنها کمک می‌خواهند.

بر اساس نتایج کار هریس و با بررسی 12 مطالعه که در مجموع هزار نفر را به عنوان دانشمند داده شناسایی کردند، 9 نقش متمایز معرفی شده است. این افراد دارای مجموعه مهارت‌ها و پیشینه‌های متفاوتی بوده‌اند که در امتداد محوری از آمار، علوم کامپیوتر و حوزه تخصصی نشان داده‌ایم. همچنین طراحی انسان محور را در توصیف مهارت‌های علم داده گنجانده‌ایم، زیرا در نظر گرفتن تاثیر محصولات داده، مانند یک برنامه تشخیص چهره اهمیت فزاینده‌ای دارد. می‌خواهیم تاکید کنیم که این نقش‌ها مقوله‌های مطلق نیستند و بین آنها ارتباطاتی وجود دارد. همچنین به محققان کمک می‌کند که درک بهتری از پیشینه افراد داشته باشند.

علم داده چگونه روش ساخت ابزارهای بصری‌سازی و تحلیل داده‌ها را تغییر می‌دهد؟

مهمترین نکته این است که تعریف و چارچوب ما از علم داده چیست و کارمندان این حوزه می‌توانند به ما در ساخت ابزارهای بصری‌سازی بهتر کمک کنند چراکه نظرات آنها و تجربه آنها می‌تواند مفید باشد. ما در حال حاضر از این چارچوب برای ایجاد معیارهای واضح‌تر بر اساس تجربیات مشتری در Tableau استفاده کردیم. ما می‌توانیم با دقت بهتری دقیقا آن چیزی را که مشتری می‌خواهد انجام دهد، مشخص کنیم. با دانستن اینکه نقش دانشمند داده به خودی خود تنوع زیادس را شامل می‌شود، با طبقه‌بندی افراد در 9 نقش علم داده خود، می‌توانیم تشخیص دهیم که هر شخص چه کاری را انجام می‌دهد. چنین طبقه‌بندی درک وظایفی که سیستم‌های بصری‌سازی ما باید پشتیبانی کنند و اینکه در چه سطحی باشند را آسان‌تر می‌کند. به عنوان مثال یک تحلیلگر فنی و مهندس AI / ML، که دو نقش متفاوت است که آن را طبقه‌بندی و مشخص کردیم، هر دو می‌توانند در یک کار مشترک در ساخت مدل شرکت کنند اما نیازهای کاملا متفاوتی دارند. اگر آن تفاوت‌ها را نادیده بگیریم، خطر ساخت ابزار اشتباه برای هر دو نقش را خواهیم داشت.

اما مهم‌تر از همه آن است که این چارچوب و تقسیم‌بندی کمک می‌کند که بتوان در مورد آنچه در اکوسیستم فعلی ابزارهای تجزیه و تحلیل بصری وجود ندارد فکر کرد. یکی از نتایجی که گرفتیم تمرکز محدود ابزارهای بصری‌سازی مدل‌های یادگیری ماشین و هم‌چنین فقدان ابزارهایی بود که سایر جنبه‌های حیاتی کار علم داده مانند آماده‌سازی، استقرار یا ارتباطات را پشتیبانی کند. این کمبود ابزار کار دانشمندان داده را در هر نقشی که باشند دشوار می‌کند و باعث تاثیرگذاری بر تصمیم‌گیری و اقدامات سازمانی می‌گردد. این تحقیق در مورد علم داده به کارشناسان Tableau کمک کرد تا چالش‌ها را آشکار و از آن برای ساختن ابزارهای بهتری که به مردم کمک می‌کند داده‌هایشان را ببینند و درک کنند، استفاده کنند.