Data Lake و Data Warehouse ؛ تفاوت ها
چهارشنبه, ۱۹ آذر , ۱۳۹۹

اصطلاح Data Lake در حوزه‌ ی Big Data بسیار رایج است و در صورتی که شما در زمینه ‌ی ساخت Data Warehouse ها تجربه دارید، ممکن است به صورت دقیق و جزئی با Data Lake آشنایی نداشته باشید.

در واقع Data Lake و Data Warehouse دو مفهوم کاملا متفاوت هستند که امکان وجود آن‌ ها در کنار یکدیگر و تولید یک خروجی کارآمد وجود دارد. همچنین هر دو می ‌توانند دید مناسبی را نسبت به کسب و کارتان در اختیار شما قرار دهند.
فقط لازم است که تفاوت ‌های کلیدی بین این دو و چگونگی استفاده از آن‌ ها را در کنار یکدیگر بدانید. همچنین تنها وجه اشتراک بین آن‌ ها این است که هر دو به عنوان بستری برای ذخیره ‌ی داده ‌ها هستند.

Data Lake چیست؟

یک Data Lake بستری برای ذخیره ‌ی انواع مختلف داده ‌های خام با فرمت اصلی و دست نخورده‌ ی آن ‌ها است که تا زمانی که نیازی نباشد، تغییری بر روی آن ‌ها انجام نمی ‌شود.
در یک Data Lake داده‌ ها به صورت ساختار نیافته هستند و با فرمت اصلی خود وجود دارند. همچنین در این بستر، به هر داده شناسه ‌ای یکتا اختصاص داده می ‌شود که از این طریق زمانی که نیاز به اجرای یک Query باشد، این Query مجموعه‌ ی کوچکتری از داده ‌ها با شناسه ‌هایی مشخص را در بر می‌ گیرد و دیگر نیازی به خواندن تمامی داده‌ های موجود در آن نیست.

Data Warehouse چیست؟

بر خلاف Data Lake، Data Warehouse ساختاری سلسله مراتبی و ساختار یافته دارد که بین داده‌ های منابع مختلف ارتباط ایجاد کرده و در کل داده‌ ها را برای ساخت گزارشات تحلیلی سازماندهی می ‌کند.
به علاوه، در یک Data Warehouse معمولا از چندین دیتابیس‌ برای مراحل مختلف از قبیل تغییر داده ‌ها، پردازش داده ‌ها و … استفاده می ‌گردد.
بنابراین به طور خلاصه می‌ توان گفت که تفاوت‌ های این دو به شرح زیر است:

از جهت داده

یک Data Warehouse محل ذخیره‌ ی داده ‌های ساختاریافته است؛ در حالی که در یک Data Lake داده‌ ها خام هستند و هیچ ساختار مشخصی ندارند

از جهت پردازش داده

داده‌ها پیش از این که در یک Data Warehouse بارگذاری شوند، پردازش می ‌شوند تا مدلی بین داده ‌های مختلف شکل بگیرد. ولی در یک Data Lake داده‌ های خام وجود دارند و تنها زمانی که نیاز باشد، پردازش داده صورت می ‌گیرد.

از لحاظ ساختاری

از آنجایی که یک Data Warehouse پایگاهی بسیار ساختاریافته است، بنابراین ایجاد تغییر در ساختار فعلی آن کاری پیچیده و زمانبر است. در حالی که یک Data Lake هیچ گونه ساختاری ندارد و به همین خاطر هر زمان که نیاز به تغییر باشد، می ‌توان به سرعت تغییر لازم را انجام داد.

از لحاظ ذخیره‌ی داده

Data Warehouse ها در سیستم‌ هایی حیاتی وجود دارند که این سیستم‌ ها دیتابیس ‌های حجیم زیادی را اجرا می ‌کنند. در حالی که Data Lake ها بر روی Hadoop که برای سخت ‌افزارهای با قابلیت ارتقاء و کم ‌هزینه طراحی شده است اجرا می‌گردد.

نام نویسنده:
به اشتراک بگذارید:
نمودار
مرجع رسمی هوش تجاری و علم داده | نمودار اولین مرجع تخصصی Power BI
مقالات مرتبط
Netflix چگونه هوش تجاری را به هالیوود آورد؟
Netflix چگونه هوش تجاری را به هالیوود آورد؟
در دنیای امروز با وفور big data مواجه هستیم که موجب تسهیل کارصنعت سرگرمی برای درک رفتار مشتری و ارائه خدمات به آن‌ها شده است. هر آهنگی که کاربران در Spotify می­شنوند، هر فیلمی که در Netflix مشاهده می‌­شود و هر ویدئویی که در YouTube مورد بازدید قرار می‌­گیرد در یک انبار مجازی ناحدود ذخیره [...]
bubble stack
bubble stack | Power BI Custom visual

در این متن می‌خواهیم در مورد یکی دیگر از کاستوم ویژوال‌های Power BI به نام bubble stack صحبت کنیم. چنانچه می‌خواهید نحوه اضافه کردن کاستوم ویژوال‌ها به Power BI  را بیاموزید، پیشنهاد می‌کنیم این مقاله را مطالعه کنید.   همانطور که در تصویر زیر می‌بینید،این ویژوال هر سهم از دیتای شما را به صورت حباب­های […]

نظرات