آنچه در این مقاله میخوانید
تمامی دادههای خود را در منبعی متمرکز و با هر مقیاسی ذخیره کنید.
دریاچه داده (Data lake) چیست؟
دریاچه داده منبعی متمرکز است که به شما اجازه میدهد تمامی دادههای ساختارمند و غیر ساختارمند خود را با هر مقیاسی در آن ذخیره کنید. شما میتوانید دادههای خود را همانطور که هست ذخیره کنید؛ آن هم بدون اینکه ابتدا سازماندهی شوند و برخی از انواع تجزیه و تحلیل روی آنها اجرا شود. این تجزیه و تحلیلها شامل برخی از امکانات داشبوردها مثل نمودارها، چارتها و یادگیری ماشین (machine learning) میشوند که به گرفتن تصمیمات بهتر کمک میکنند.
چرا به دریاچه داده (Data lake) نیاز دارید؟
سازمانهایی که در خلق ارزش تجاری از دادههایشان موفق عمل میکنند، نسبت به رقبایشان عملکرد بهتری خواهند داشت. تحقیقی که در دانشگاه ابردین انجام شده، نشان میدهد رشد درآمد ارگانیک سازمانهایی که از دریاچه داده بهره میگیرند، ۹ درصد بیشتر از سازمانهای مشابه است. چرا که این سازمانها میتوانند انواع جدیدی از تجزیه و تحلیل مثل یادگیری ماشین را انجام دهند.
این تجزیه و تحلیلها با استفاده از Log fileها، دادههای کسبشده از Click Streamها، شبکههای اجتماعی و تجهیزات متصل به اینترنت که در دریاچه داده ذخیره شدهاند، انجام میشود. اطلاعات خروجی از این تجزیه و تحلیلها برای شناسایی فرصتهای رشد سریعتر با کمک جذب و حفظ مشتریان، تقویت بهرهوری، نگهداری از تجهیزات بهصورت مؤثر و گرفتن تصمیمات آگاهانه و عمل بر اساس این فرصتها استفاده میشود.
تفاوت دریاچه داده با پایگاه داده تحلیلی؛ دو رویکرد متفاوت
بسته به نوع نیازمندیها، یک سازمان معمولی، هم به پایگاه داده تحلیلی و هم دریاچه داده نیاز دارد؛ چراکه این دو رویکرد نیازهای متفاوتی را برطرف میکنند و کاربردهایشان با یکدیگر فرق دارد.
پایگاه داده تحلیلی نوعی پایگاه داده است که برای تجزیه و تحلیل دادههای رابطهای بهدستآمده از سیستمهای تراکنشی و برنامههای حیاتی سازمان (line of business applications)، بهینهسازی شدهاند. در پایگاه داده تحلیلی، ساختار و مدل داده از پیش به نحوی تعریف میشود که برای کوئریهای SQL سریع، بهینه باشد. معمولاً از نتایج این کوئریها برای گزارشها و تجزیه و تحلیلهای عملکردی استفاده میشود. در این نوع از پایگاه داده، دادهها بدون نقص، غنی و متحول میشوند تا بتوان از آنها به عنوان «تنها منبع قابلاعتماد» در سازمان استفاده کرد.
دریاچه داده کمی متفاوت است، چرا که علاوه بر دادههای رابطهای بهدستآمده از برنامههای حیاتی سازمان، دادههای غیر نسبی بهدستآمده از اپلیکیشنهای موبایل، تجهیزات اینترنت اشیا و شبکههای اجتماعی نیز در آن ذخیره میشوند. ساختار یا مدل دادهها نیز هنگام به دست آوردن آنها مشخص نیست. یعنی شما میتوانید تمامی دادههای خود را بدون سازماندهی دقیق یا دانستن اینکه در آینده به پاسخ چه سؤالاتی نیاز دارید، ذخیره کنید.
در دریاچه داده میتوانید از انواع مختلف روشهای تجزیهوتحلیل داده مثل کوئریهای SQL، تجزیه و تحلیل دادههای کلان، جستجوی تمام متن (full text search)، تجزیهوتحلیل بلادرنگ و یادگیری ماشین برای مشخص کردن بینشهای مشتری استفاده کنید.
سازمانهایی که به پایگاه داده تحلیلی مجهز هستند و به مزایای دریاچه داده پی میبرند، شروع به گنجاندن دریاچه داده در پایگاه داده تحلیلی خود میکنند تا قادر به استفاده از قابلیتهای کوئریهای متنوع، کاربردهای علم داده و قابلیتهای پیشرفته مدلهای اطلاعاتی جدید باشند. موسسه گارتنر که در زمینه مشاوره مدیریت فعالیت میکند، این دگرگونی را «راهکار مدیریت داده برای تجزیهوتحلیل» یا DMSA نامگذاری کرده است.
ویژگی | پایگاه داده تحلیلی | دریاچه داده |
نوع داده | دادههای رابطهای دریافتی از سیستمهای تراکنش، پایگاههای داده عملیاتی و برنامههای حیاتی سازمان | دادههای غیر رابطهای بهدستآمده از تجهیزات اینترنت اشیا، برنامههای موبایل، سایتها، شبکههای اجتماعی و نرمافزارهای شرکت |
الگوی داده | طراحی پیش از اجرای پایگاه داده تحلیلی (طراحی الگو هنگام نوشتن) | نوشتن هنگام تجزیهوتحلیل (طراحی الگو هنگام خواندن) |
قیمت/عملکرد | نتایج کوئری سریع با استفاده از تجهیزات ذخیرهسازی گرانقیمت | نتایج کوئری سریع با استفاده از تجهیزات ذخیرهسازی ارزانتر |
کیفیت داده | دادههای برگزیدهای که از آنها به عنوان نسخه مرکزی حقیقت استفاده میشود | هر دادهای که میتواند برگزیده یا غیر برگزیده باشد (مثل دادههای خام) |
نوع کاربر | تحلیلگران تجاری | داده شناس ها، توسعهدهندگان داده و تحلیلگران تجاری (که از دادههای برگزیده استفاده میکنند) |
روش تجزیهوتحلیل | گزارشهای دستهای، هوش تجاری و نمودارها | یادگیری ماشین، تحلیلهای پیشگویانه، کشف داده و نمایه سنجی (profiling) |
با عناصر اساسی دریاچه داده و راهحلهای تحلیلی آن آشنا شوید
در کنار ساخت دریاچههای داده و پلتفرمهای تجزیهوتحلیل آنها، سازمانها باید قابلیتهای کلیدی زیر را نیز در نظر بگیرند:
جابجایی داده
دریاچههای داده به شما اجازه میدهند که هر مقداری از داده را بهصورت بلادرنگ وارد کنید. این دادهها از منابع متعددی جمعآوری و با فرمت اصلی خود وارد دریاچه داده میشوند. این فرایند امکان مقیاسپذیری بر اساس هر سایزی از داده را فراهم میکند، آن هم درحالیکه در زمان صرفهجویی کرده و آن را برای تعریف ساختار داده، الگودهی و تغییر و تحول کنار میگذارد.
فهرست بندی و ذخیرهسازی امن دادهها
دریاچه داده به شما اجازه میدهد که دادههای رابطهای مثل پایگاههای داده عملیاتی و دادههای دریافتی از برنامههای حیاتی سازمان را به همراه دادههای غیر رابطهای دریافتی از تجهیزات اینترنت اشیا، برنامههای موبایل و شبکههای اجتماعی ذخیره کنید. همچنین با استفاده از دریاچه داده قادر خواهید بود تا با استفاده از crawling، فهرستبندی و شاخصگذاری (indexing) دادهها، هویت آنها را تشخیص دهید. در انتها نیز باید دادهها ایمن شوند تا مطمئن شوید که تجهیزات داده شما محافظت میشوند.
تحلیلگران داده
دریاچه داده به برخی از افراد مسئول در سازمان مثل دادهشناسها، توسعهدهندگان اطلاعات و تحلیلگران تجاری اجازه میدهد که با ابزار تجزیه و تحلیل و چهارچوبهای دلخواه خود به دادهها دسترسی پیدا کنند. این ابزارها شامل چهارچوبهای متن بازی مثل Apache Hadoop، Presto، Apache Spark و پیشنهادهای تجاری از سوی ارائهدهندگان خدمات پایگاه تحلیل داده و هوش تجاری میشوند. با دریاچه داده دیگر نیازی به انتقال دادههای خود به یک سیستم تحلیلگر مجزا ندارید.
یادگیری ماشین
Data lake به سازمانها اجازه میدهد تا انواع مختلفی از بینش را به شرح زیر تولید کنند:
• گزارشدهی بر اساس دادههای تاریخی
• پیادهسازی فرایند یادگیری ماشین در جایی که مدلها برای پیشبینی خروجیهای احتمالی طراحی شدهاند
• رسیدن به تعدادی اقدام مشخص به منظور دستیابی به نتیجه بهینه
ارزشهای دریاچه داده چیست؟
توانایی مهار دادههای بیشتر از منابع بیشتر و در زمان کوتاهتر و توانمندسازی کاربران در زمینه به اشتراک گذاشتن و تجزیهوتحلیل دادهها که منجر به تصمیمگیری بهتر و سریعتر میشود، تنها بخشی از مهمترین ارزشهای دریاچه داده است. در ادامه با سایر ارزشهای دریاچه داده آشنا میشوید:
بهبود تعامل با مشتری
دریاچه داده میتواند دادههای جمعآوریشده از یک پلتفرم مدیریت ارتباط با مشتریان (CRM) را با دادههای زیر ترکیب کند:
• دادههای حاصل از تجزیهوتحلیل شبکههای اجتماعی
• دادههای یک پلتفرم بازاریابی که شامل تاریخچه خرید میشود
• دادههای حاصل از تیکههای ثبتشده
این ترکیب باعث میشود که سازمان بتواند سودمندترین گروه آماری، علت ریزش مشتریان و پروموشنها و جوایزی که میتوانند وفاداری مشتری را زیاد کنند، بشناسد.
بهبود گزینههای موجود برای تحقیق و توسعه
دریاچه داده میتواند در زمینههای زیر به تیم تحقیق و توسعه شما کمک کند:
• آزمایش فرضیهها
• تعریف مجدد پیشفرضها
• ارزیابی نتایجی مثل انتخاب مواد برای طراحی محصول که منجر به افزایش سرعت عمل میشود
• انجام تحقیقات genomic که به درمانهای مؤثر میانجامد
• درک تمایل مشتریان در زمینه هزینه کردن برای ویژگیهای متفاوت
افزایش سودمندی عملیاتی
اینترنت اشیا راههای بیشتری را برای جمعآوری داده از فرایندهایی مثل تولید و از طریق دادههای برخط دریافتی از تجهیزات متصل به اینترنت فراهم کرده است. دریاچه داده ذخیرهسازی و اجرای روشهای تجزیهوتحلیل را روی دادههای اینترنت اشیا که توسط دستگاهها تولید شدهاند را آسانتر میکند. این موضوع منجر به کشف راههایی برای کاهش هزینههای عملیاتی و افزایش کیفیت میشود.
چالشهای دریاچه داده چیست؟
چالش اصلی در ساختاربندی دریاچه داده، دادههای خامی است که بدون هیچ نظارتی روی محتوایشان، ذخیره شدهاند. برای این که دریاچه داده بتواند دادهها را قابلاستفاده کند، باید مکانیسمهایی برای فهرست بندی و تأمین امنیت دادهها برایش تعریف شود. بدون این عناصر، دادهها قابلکشف و اعتماد نیستند و تبدیل به باتلاق میشوند. برای پاسخ به نیاز برای داشتن مخاطبین متنوعتر، دریاچه داده به قدرت نظارت، سازگاری معنایی و کنترل دسترسیها نیاز دارد.
استقرار دریاچه داده در ابر چگونه انجام میشود؟
دریاچه داده یک حجم کاری ایدئال برای استقرار در سرور ابری محسوب میشود؛ چرا که سرورهای ابری بهبود عملکرد، مقیاسپذیری، قابلیت اطمینان، در دسترس بودن، موتورهای تجزیه و تحلیل متنوع و حجم عظیمی از صرفهجوییهای ناشی از مقیاسپذیری را فراهم میکنند. موسسه تحقیقاتی ESG بهتازگی مدعی شده که ۳۹ درصد شرکتکنندگان در تحقیقی اعلام کردهاند که سرور ابری را به عنوان گزینه اصلی برای استقرار تجزیه و تحلیل انتخاب میکنند.
۴۱ درصد افراد نیز سرور ابری را برای استقرار پایگاه داده تحلیلی و ۴۳ درصد نیز آن را برای استقرار Spark (موتور بهینهسازی شده برای تجزیهوتحلیل دادهها در مقیاس بزرگ) انتخاب میکنند. مهمترین دلایلی که مشتریان سرور ابری را به عنوان اصلیترین گزینه برای دریاچه داده در نظر میگیرند، به شرح زیر است:
• امنیت بیشتر
• سرعت استقرار بالاتر
• در دسترس بودن
• بهروزرسانی ویژگیها و قابلیتها به دفعات بیشتر
• انعطافپذیری بیشتر
• پوشش جغرافیایی گستردهتر
• هزینههای متصل به سودمندی واقعی
نتیجهگیری
دریاچه داده یا data lake منبعی برای ذخیرهسازی انواع دادههای حیاتی سازمان است که از منابع متنوعی به دست میآیند. مزیت اصلی این منبع، عدم نیاز به ساختاربندی دادهها پیش از ذخیرهسازی و امکان اجرای روشهای مدرن تجزیهوتحلیل داده است.
مطلب مرتبط: فضای ذخیرهسازی ابری چیست و چگونه کار میکند؟
این مقاله را به اشتراک بگذارید