مقدمه :

پالایش یا پاکسازی داده ها فرایند اصلاح یا حذف داده های نادرست ، خراب ، با فرمت نادرست ، تکراری یا ناقص در یک مجموعه داده است. هنگام ترکیب چند منبع داده ممکن است داده ی تکراری یا نادرست ایجاد شود. اگر داده ها نادرست باشند ، خروجی ها و الگوریتم ها غیرقابل اعتماد خواهند بود ، حتی اگر صحیح به نظر بیایند.

پالایش داده ها چیست ؟

هیچ راهکار مشخصی برای تعیین مراحل دقیق پالایش داده ها داده ها وجود ندارد. زیرا فرآیندها از مجموعه داده ای به مجموعه دیگر متفاوت خواهند بود. اما بسیار مهم است که یک الگو برای فرآیند پاکسازی داده های خود ایجاد کنید تا بدانید که هر بار آن را به درستی انجام می دهید.

روش های پالایش داده ها بسته به داده های هر سازمان می تواند متفاوت باشد ، اما به طور کلی رعایت این موارد می توانند کمک موثری در این مسیر باشند :

مرحله ۱ : موارد تکراری یا غیر مرتبط را حذف کنید.

این اتفاق عموما زمانی رخ می دهد که داده ها را چندین منبع مختلف جمع آوری می کنید. برای مثال اگر قصد داشته باشید داده های مشتریان محدوده ی سنی خاصی را تحلیل کنید اما مجموعه ی داده های شما شامل بازه های سنی دیگر نیز می شود ، بهتر است آنها را حذف کنید تا شما را از هدف اصلی دور نکنند.

مرحله ۲ : رفع خطاهای ساختاری

خطاهای ساختاری معمولا در زمان انتقال داده ها اتفاق می افتند و شما متوجه نام گذارهای عجیب ، اشتباهات تایپی یا حروف نادرست می شوید.

مرحله ۳ : داده های پرت را حذف کنید

اغلب، داده هایی وجود دارند که به نظر می رسد با داده هایی که شما تجزیه و تحلیل می کنید، مطابقت نداشته باشند. اگر دلیل موجهی برای حذف اطلاعات پرت دارید، مانند ورود نامناسب داده، انجام این کار به بهبود عملکرد داده هایی که با آنها کار می کنید کمک می کند. با این حال، گاهی اوقات این ظاهر یک چیز پرت است که نظریه ای را که روی آن کار می کنید ثابت می کند.

به یاد داشته باشید: صرفاً به این دلیل که یک چیز پرت وجود دارد، به این معنی نیست که نادرست است. این مرحله برای تعیین اعتبار آن عدد مورد نیاز است. اگر ثابت شد که یک نقطه پرت برای تجزیه و تحلیل نامربوط است یا اشتباه است، آن را حذف کنید.

مرحله ۴: داده های از بین رفته را مدیریت کنید

شما نمی توانید داده های از بین رفته را نادیده بگیرید زیرا بسیاری از الگوریتم ها مقادیر از بین رفته را نمی پذیرند. چند راه برای مقابله با داده های از بین رفته وجود دارد. هیچ یک بهینه نیستند، اما هر دو را می توان مدنظر قرار داد.

به عنوان اولین گزینه، می‌توانید داده های از بین رفته را رها کنید، اما انجام این کار باعث حذف یا از دست رفتن اطلاعات می‌شود، بنابراین قبل از حذف آن‌ها به این موضوع توجه داشته باشید.

به عنوان گزینه دوم، می توانید مقادیر از بین رفته را بر اساس داده های دیگر وارد کنید. اما در این حالت نیز امکان از دست دادن یکپارچگی داده ها وجود دارد، چون براساس فرضیات عمل کرده اید و نه مشاهدات واقعی.

به عنوان گزینه سوم، می توانید روش استفاده از داده ها را برای یافتن مقادیر تهی تغییر دهید.

مرحله ۵: اعتبارسنجی و پرسش و پاسخ

در پایان فرآیند پالایش داده ها، باید بتوانید به عنوان بخشی از اعتبارسنجی اولیه به این سؤالات پاسخ دهید:

  • آیا داده ها معنادار هستند؟
  • آیا داده ها از قوانین مناسب دسته ی خود پیروی می کنند؟
  • آیا داده ها نظریه شما را تائید یا رد و یا بینشی را آشکار می کنند؟
  • آیا می توانید روندهایی را در داده ها پیدا کنید تا در شکل گیری نظریه بعدی شما را یاری کنند؟
  • اگر نه، آیا دلیل آن مشکل کیفیت داده است؟

نتیجه گیری نادرست به دلیل داده های نادرست یا “کثیف” می تواند منجر به ضعف در تعیین استراتژی و تصمیم گیری در کسب و کار شود . نتیجه‌گیری‌های نادرست حتی ممکن است هنگام ارائه ی گزارش ها شما را دچار دردسر سازند. قبل از رسیدن به چنین نقطه ای بهتر است فرهنگ تولید داده های با کیفیت را در سازمان خود گسترش دهید و برای ایجاد چنین فرهنگی لازم است تا ابزارهایی که می توانند در راه رسیدن به این هدف سازمان را یاری کنند تعیین و معنای واقعی کیفیت داده ها را به صورت مستند در سازمان تبیین کنید.

 

منبع