اصطلاح Data Lake در حوزه‌ ی Big Data بسیار رایج است و در صورتی که شما در زمینه ‌ی ساخت Data Warehouse ها تجربه دارید، ممکن است به صورت دقیق و جزئی با Data Lake آشنایی نداشته باشید.

در واقع Data Lake و Data Warehouse دو مفهوم کاملا متفاوت هستند که امکان وجود آن‌ ها در کنار یکدیگر و تولید یک خروجی کارآمد وجود دارد. همچنین هر دو می ‌توانند دید مناسبی را نسبت به کسب و کارتان در اختیار شما قرار دهند.
فقط لازم است که تفاوت ‌های کلیدی بین این دو و چگونگی استفاده از آن‌ ها را در کنار یکدیگر بدانید. همچنین تنها وجه اشتراک بین آن‌ ها این است که هر دو به عنوان بستری برای ذخیره ‌ی داده ‌ها هستند.

Data Lake چیست؟

یک Data Lake بستری برای ذخیره ‌ی انواع مختلف داده ‌های خام با فرمت اصلی و دست نخورده‌ ی آن ‌ها است که تا زمانی که نیازی نباشد، تغییری بر روی آن ‌ها انجام نمی ‌شود.
در یک Data Lake داده‌ ها به صورت ساختار نیافته هستند و با فرمت اصلی خود وجود دارند. همچنین در این بستر، به هر داده شناسه ‌ای یکتا اختصاص داده می ‌شود که از این طریق زمانی که نیاز به اجرای یک Query باشد، این Query مجموعه‌ ی کوچکتری از داده ‌ها با شناسه ‌هایی مشخص را در بر می‌ گیرد و دیگر نیازی به خواندن تمامی داده‌ های موجود در آن نیست.

Data Warehouse چیست؟

بر خلاف Data Lake، Data Warehouse ساختاری سلسله مراتبی و ساختار یافته دارد که بین داده‌ های منابع مختلف ارتباط ایجاد کرده و در کل داده‌ ها را برای ساخت گزارشات تحلیلی سازماندهی می ‌کند.
به علاوه، در یک Data Warehouse معمولا از چندین دیتابیس‌ برای مراحل مختلف از قبیل تغییر داده ‌ها، پردازش داده ‌ها و … استفاده می ‌گردد.
بنابراین به طور خلاصه می‌ توان گفت که تفاوت‌ های این دو به شرح زیر است:

از جهت داده

یک Data Warehouse محل ذخیره‌ ی داده ‌های ساختاریافته است؛ در حالی که در یک Data Lake داده‌ ها خام هستند و هیچ ساختار مشخصی ندارند

از جهت پردازش داده

داده‌ها پیش از این که در یک Data Warehouse بارگذاری شوند، پردازش می ‌شوند تا مدلی بین داده ‌های مختلف شکل بگیرد. ولی در یک Data Lake داده‌ های خام وجود دارند و تنها زمانی که نیاز باشد، پردازش داده صورت می ‌گیرد.

از لحاظ ساختاری

از آنجایی که یک Data Warehouse پایگاهی بسیار ساختاریافته است، بنابراین ایجاد تغییر در ساختار فعلی آن کاری پیچیده و زمانبر است. در حالی که یک Data Lake هیچ گونه ساختاری ندارد و به همین خاطر هر زمان که نیاز به تغییر باشد، می ‌توان به سرعت تغییر لازم را انجام داد.

از لحاظ ذخیره‌ی داده

Data Warehouse ها در سیستم‌ هایی حیاتی وجود دارند که این سیستم‌ ها دیتابیس ‌های حجیم زیادی را اجرا می ‌کنند. در حالی که Data Lake ها بر روی Hadoop که برای سخت ‌افزارهای با قابلیت ارتقاء و کم ‌هزینه طراحی شده است اجرا می‌گردد.