ما در مورد سازمانهایی که تحت «نوسازی دادهها» قرار میگیرند زیاد میشنویم تا بیشتر دادهمحور شوند. اساساً معنای آن این است که این سازمانها تشخیص دادهاند که ابزارهای داده قدیمی در حل مشکلات دادههای مدرن خیلی خوب نیستند. آنها در حال انتقال دادهها به خارج از پایگاههای داده اصلی قدیمی هستند و در همان زمان، سیستمهای قدیمی را با یک راهحل بهروز جایگزین میکنند – راهحلی که معمولاً به عنوان «پشته دادههای مدرن» از آن یاد میشود.
بنابراین یک پشته داده مدرن چگونه به نظر می رسد؟ و چگونه به وعده خود مبنی بر افزایش و بهبود تجزیه و تحلیل عمل می کند؟
پشته داده(data stack)چیست؟
دادهها را «نفت جدید اقتصاد دیجیتال» مینامند زیرا یکی از با ارزشترین (و هنوز به طور کامل مورد استفاده قرار نگرفته) داراییهای یک سازمان است. اما قطعات داده به خودی خود ارزش زیادی ندارند. داده ها ابتدا باید جمع آوری، سازماندهی، پاکسازی شوند و در یک پروژه تحلیلی مورد استفاده قرار گیرند تا ارزش تولید شود. ترکیبی از فنآوریهایی که دادهها را در آن مراحل هدایت میکنند، چیزی است که یک پشته داده را میسازد.
یک تشبیه خوب برای ساختار داده پشته، پخت و پز است. قبل از اینکه یک وعده غذایی را به پایان برسانید، ابتدا باید مواد را تهیه و در آشپزخانه خود ذخیره کنید، مواد خود را آماده کنید، همه چیز را در فر قرار دهید تا در نهایت یک غذای آماده داشته باشید. داشتن یک آشپزخانه مرکزی ضروری است. اگر مواد در مکانهای مختلف از هم جدا میشدند، پیشبینی اینکه چه نوع وعدهای را میتوانید تهیه کنید، دشوار خواهد بود. در کنار هم، تصور چندین دستور غذا آسان است.
مانند یک آشپزخانه، انبار داده ابری نقطه مرکزی ساختار داده پشته است. تحت انبارهای داده سنتی، دادهها از هم جدا شده بودند و دسترسی به آنها دشوار بود. انبارهای داده ابری با فناوریهای سلفسرویس که در بین تحلیلگران عادی شدهاند بسیار دوستانهتر هستند و اغلب هزینهها را کاهش میدهند و عملکرد را با ذخیرهسازی انعطافپذیر و انعطافپذیری بهبود میبخشند.
بیایید نگاهی دقیقتر به چهار جزء کلیدی پشته داده بیندازیم.
- بارگذاری
فناوری هایی که در این دسته قرار می گیرند وظیفه انتقال داده ها از مکانی به مکان دیگر را بر عهده دارند. یک مثال عالی از فروشنده ای که این قسمت از پشته را پوشش می دهد Fivetran است.
- انبارداری
اینها فناوری هایی هستند که به سازمان ها اجازه می دهند تمام داده های خود را در یک مکان ذخیره کنند. انبارهای داده مبتنی بر ابر اساس پشته های داده مدرن هستند. به عنوان مثال می توان به Google BigQuery، Amazon Redshift، Snowflake و Databricks اشاره کرد. - تبدیل شدن
این مرحله ای است که داده های “خام” را به داده های “تصفیه شده” تبدیل می کند – به عبارت دیگر داده ها را برای تجزیه و تحلیل قابل استفاده می کند. بیشتر سازمانها برای این مرحله از «پلتفرم آمادهسازی داده» استفاده میکنند (اطلاعات بیشتر در زیر). پیشرو صنعت در تهیه داده ها Trifacta است. - استفاده تحلیلی
در این مرحله، سازمانها شروع به استخراج بینش معنیدار از دادههای خود با قیف کردن آنها در مدلهای یادگیری ماشینی، ارائه خدمات به ذینفعان بهعنوان گزارش یا تجسم، یا استفاده از آن بهعنوان پایه برنامههای داده میکنند. نمونه هایی از فروشندگان تجزیه و تحلیل فراوان است. تعدادی از فروشندگان رایج عبارتند از Looker، Google Data Studio، Tableau، Amazon SageMaker (مدل های ML).
ظهور ELT
استفاده از داده ها در یک سازمان همیشه از این ترتیب پیروی نمی کند. مدرنسازی دادهها نه تنها نیازمند مجموعهای از فناوریهای جدید است، بلکه روش جدیدی برای ایجاد خطوط لوله داده نیز به دنبال دارد.
انبارهای داده پیش از ابر، اکثر سازمان ها بر فرآیند ETL متکی بودند. یعنی داده ها را از سیستم های داده و منابع خارجی استخراج کنید، آن ها را به قالبی برای ذخیره سازی تبدیل کنید و در پایگاه های داده بارگذاری کنید. این فرآیند زمانی معنا پیدا کرد که یک تیم کوچک از توسعه دهندگان داده های سازمان را کنترل کردند. اکنون، تیمها و کاربران بسیار زیادی هستند که به دادههایی برای گروه کوچکی نیاز دارند تا بتوانند کل فرآیند آمادهسازی دادهها و ارائه آنها را در اختیارشان قرار دهند. علاوه بر این، جابجایی انواع دادههای مدرن و پیچیده در یک قالب برای ذخیرهسازی کارآمد نیست یا برای کاوش داده مفید نیست.
یک فرآیند ELT مانند آنچه در بالا ذکر شد – که در آن سازمان ها انعطاف پذیری لازم را دارند تا داده ها را قبل از تبدیل به انبارها بارگذاری کنند و سپس به کاربران تجاری اجازه دهند خودشان آن را تغییر دهند – رویکرد بسیار کارآمدتری است.
مزایای اصلی ELT عبارتند از:
زمان کاهشیافته – یک فرآیند ETL به استفاده از یک منطقه و سیستم مرحلهبندی نیاز دارد، که به معنای زمان اضافی برای بارگذاری دادهها است. ELT ندارد.
افزایش قابلیت استفاده – کاربران تجاری می توانند به جای یک تیم کوچک فناوری اطلاعات که از جاوا، پایتون، اسکالا و غیره برای تبدیل داده ها استفاده می کنند، منطق تجاری داشته باشند.
مقرون به صرفه تر – با استفاده از راه حل های SaaS، یک پشته ساختار داده ELT می تواند به نیازهای یک سازمان افزایش یا کاهش یابد. ETL فقط برای سازمان های بزرگ طراحی شده است.
تجزیه و تحلیل بهبود یافته – تحت ELT، کاربران تجاری می توانند زمینه کسب و کار منحصر به فرد خود را روی داده ها اعمال کنند، که اغلب منجر به نتایج بهتر می شود.
چرا "T" در پشته داده بسیار مهم است
ما در مورد “T” در پشته داده ها صحبت کرده ایم – فرآیند تبدیل داده ها برای استفاده تحلیلی. بیایید نگاهی دقیقتر به این موضوع بیندازیم که چرا این مرحله بسیار مهم است.
ابتدا، اجازه دهید به استعاره آشپزی خود بازگردیم. یک تشبیه خوب برای تبدیل داده ها، آماده سازی غذا است. کاری که برای حرکت از مواد خام به یک وعده غذایی کامل لازم است، یک فعالیت حیاتی است و تا حد زیادی کیفیت وعده غذایی شما را تعیین می کند. در حالی که برخی از کارهای آماده سازی غذا وجود دارد که می توان آنها را برای همه مواد به کار برد (شستن، جدا کردن ساقه ها و غیره)، به طور کلی، هر یک از مواد به طور متفاوتی هنگام پختن وعده های غذایی مختلف آماده می شوند. داده ها به طور مشابه کار می کنند.
هیچ آماده سازی داده ای “یک اندازه مناسب برای همه” وجود ندارد. هر پروژه تحلیلی مراحل آماده سازی داده های متفاوتی را می طلبد و استانداردهای کیفیت داده های متفاوتی دارد. اما وجه مشترک در همه مشاغل آماده سازی داده این است که مهم نیست که چگونه داده ها تغییر شکل می دهند، این نتیجه اساس تجزیه و تحلیل نهایی خواهد بود – برای خوب یا بد. اگر به درستی انجام شود، آمادهسازی دادهها میتواند به بینشهای عمیقتری منجر شود، حتی فراتر از محدوده مورد نظر تحلیل. هر مرحله در فرآیند آمادهسازی دادهها، راههای بالقوه جدیدی را نشان میدهد که دادهها ممکن است «مجدداً به هم ریخته شوند»، که همگی به سمت هدف تولید قویترین تحلیل نهایی پیش میروند.
در حالی که IT اغلب مسئولیت وظایف تبدیل داده در مقیاس بزرگ را برای اطمینان از یک نسخه واحد از حقیقت حفظ می کند، این کاربران تجاری هستند که باید مراحل نهایی پاکسازی و آماده سازی داده ها را در اختیار داشته باشند. داشتن زمینه تجاری مناسب به این کاربران اجازه می دهد تا در نهایت تصمیم بگیرند که چه چیزی قابل قبول است، چه چیزی نیاز به پالایش دارد و چه زمانی به سمت تجزیه و تحلیل حرکت کنند.
یک پشته داده مدرن و ELT که شامل یک پلت فرم آماده سازی داده مانند Trifacta است، به کاربران تجاری اجازه می دهد این مسئولیت را بر عهده بگیرند. و نحوه انجام تجزیه و تحلیل در یک سازمان را به شدت تغییر داده است. اصطکاک کمتری در به دست آوردن دادهها وجود دارد، توجه بیشتری به نحوه تبدیل آنها وجود دارد، و فضای بیشتری برای کاوش در مورد چگونگی تغییر آنالیز وجود دارد.
دیدگاه (2)
سلام، ممنونم از مطالب خوبتون
فقط در مورد این مقاله مرجع رو ذکر نکردید.
درود بر شما. لینک مقاله به ایمیلتان ارسال گردید.