ETL چیست
ETL چیست؟
یکشنبه, ۱۹ آبان , ۱۳۹۸

ETL فرایند واکشی اطلاعات از سیستم های اطلاعاتی، تبدیل و بارگزاری در انباره داده است. برای انبار داده، ما داده های مفیدی که ارزش تحلیلی دارند را از سیستم های اطلاعاتی مختلف استخراج می کنیم. این داده های خام نیاز به پالایش دارند و باید ساختار آنها به گونه ای که با انبار داده و تحلیل کسب و کار متناسب باشد، تغییر کند. این تغییر شامل تغییر نوع و مقدار و ترکیب و یا جداسازی دادهاست. همچنین با توجه به اینکه امکان اشتباه بودن یا نامعتبر بودن برخی داده‌ها در سیستم‌‌های اطلاعاتی وجود دارد، باید داده های استخراج شده را در طی فرایندی پالایش (Data Cleansing) کرد و اطلاعاتی که باعث بروز اشتباه می‌شوند را حذف کرد و یا تغییر داد. در این فاز بررسی صحت داده‌ها (Data Validation) و مقایسه با سیستم‌های عملیاتی صورت می‌‎پذیرد. پس از این مراحل داده ها در انبار داده (Data Warehouse) بارگزاری می‌شوند.

فرایندهای ETL

پس ETL فرایندی است که در آن داده ها:

  • از منابع مختلف استخراج و جمع آوری می‌شوند، (Extract)
  • مطابق با کسب و کار پالایش می‌شوند(Transform)
    در این مرحله از عملگرهای مختلفی  مانند فیلتر، مرتب سازی (Sorting)، تجمیع (Aggregate)، اتصال(joining)، پاکسازی داده (Cleaning Data)، حذف داده‌های یکسان (Deduplicating) و اعتبارسنجی داده ها (Data Validation) استفاده می‌کنیم.
  •  در نهایت در یک منبع داده ذخیره می‌شوند. (Load)

چگونه فرایند ETL را انجام دهیم؟

در طی سالیان مختلف ابزارها، سرویس‌ها و فرایندهای مختلفی توسعه یافته اند تا سازمان ها با چالش داده ای خود کنار بیایند. برای نمونه اگر  قصد داریم که یک پروژه مصورسازی داده را با Power BI انجام دهیم، با استفاده از کامپونت power query، فرایند ETL به صورت کامل روی داده ها انجام می‌شود. سرویس یکپارچه‌سازی SQL Server  (SSIS) و زبان TSQL نیز  به ما در فرایند ETL کمک خواهد کرد. زبان‌های برنامه نویسی مثل پایتون و R نیز در فاز پالایش داده می‌توانند استفاده شوند.

چرا ETL مهم است؟

هر سازمانی چه در ابعاد بزرگ و چه در ابعاد کوچک ، منابع داده‌ای متفاوتی دارد. در فاز Extract در ETL، داده‌های خام از منابع مختلفی (مانند نرم افزارهای CRM، نرم افزارهای حسابداری، سامانه‌های تحلیل داده) استخراج می‌شوند. قبل از اینکه داده‌ها در سامانه نهایی (که معمولا انبار داده است) ذخیره شوند، پالایش می‌شوند تا در یک فرمت مناسب برای کوئری نویسی و تحلیل اطلاعات قرار بگیرند. مدت زیادی است که کسب وکارها از فرایند ETL  استفاده می‌کنند تا دید درستی از داده ها داشته باشند و بتوانند با استفاده از داده‌ها و بینش استخراج شده از آن‌ها در تصمیم‌گیری‌ها عملکرد بهتری داشته باشند.

از طرفی نباید این نکته را از یاد برد که یکی از مراحل پیاده سازی هوش تجاری (BI)، در هر سازمانی ETL است.

مراحل مختلف ETL

در اغلب مواقع هر سه فاز ETL به صورت موازی انجام می‌شوند تا در زمان صرفه جویی شود. برای نمونه وقتیکه داده ها در حال استخراج هستند، فرایند پالایش روی داده هایی که استخراج شده اند قابل انجام است. همچنین درحالیکه داده ها در حال پالایش هستند، بخشی از داده ها که پالایش شده اند، قابل بارگزاری هستند.

پیشنهاد می‌کنیم بخوانید:

نام نویسنده:
به اشتراک بگذارید:
نمودار
مرجع رسمی هوش تجاری و علم داده | نمودار اولین مرجع تخصصی Power BI
مقالات مرتبط
Data Lake و Data Warehouse ؛ تفاوت ها
اصطلاح Data Lake در حوزه‌ ی Big Data بسیار رایج است و در صورتی که شما در زمینه ‌ی ساخت Data Warehouse ها تجربه دارید، ممکن است به صورت دقیق و جزئی با Data Lake آشنایی نداشته باشید. در واقع Data Lake و Data Warehouse دو مفهوم کاملا متفاوت هستند که امکان وجود آن‌ ها [...]
نشانه‌هایی که می‌گوید شما نیازمند‌ انبار داده هستید
نشانه‌هایی که می‌گوید شما نیازمند‌ انبار داده هستید (قسمت دوم)
در این مقاله در مورد نشانه های پیاده سازی انبار داده صحبت کردیم. حال در ادامه به بررسی سایر نشانه ها می‌پردازیم. ۶- مشکل اشتراک کار‌ها در صورت آماده سازی داده‌ها و اطلاعات در اسپرد شیت‌ها، اشتراک گذاری آن با سایر افراد مرتبط و امکان به‌روز‌رسانی آن‌ها به صورتی که نسخه‌ی تغییر یافته به سادگی [...]
نظرات
اسلامی فر

با سلام
می خوام یه سند نیازمندی در خصوصETL بنویسم
یه etl چه شاخص های باید داشته باشه

پاسخ دادن به اسلامی فر لغو پاسخ