Site icon آکادمی آمانج

Data Cleaning: از داده‌های آشفته به اطلاعات مفید

data cleaning یا پاکسازی داده چیست؟

داده، مهم‌ترین عنصر در تجزیه‌وتحلیل‌ و تصمیم‌گیری‌های سازمان‌ها و شرکت‌های بزرگ هستند. گاهی اوقات پیش می‌آید که در تحلیل حجم عظیمی از داده‌ها، با نتایج و خطاهای غیرمنتظره مواجه شویم. مثلا داده‌هایی که دارای اشتباهات تایپی هستند یا حروف بزرگ و کوچک در آن‌ها رعایت نشده است.

در این شرایط چطور می‌توانیم مطمئن باشیم که داده‌ها دقیق و قابل‌اعتماد هستند یا نه؟ چطور می‌شود داده‌های پر از اشتباه را به داده‌هایی مفید تبدیل کرد؟ چه ابزارها و تکنیک‌هایی برای پاکسازی داده‌های اضافه و یا رفع مشکلات داده‌ها وجود دارد؟ 

زبان برنامه‌نویسی پایتون قابلیت‌های خیلی زیادی دارد که یکی از مهم‌ترین آن پاکسازی داده یا Data Cleaning است.

در این مقاله به پاکسازی داده یا Data Cleaning با پایتون پرداخته شده است.

پاکسازی داده (Data Cleaning) در پایتون به چه معناست؟

پاکسازی داده یا تمیزکاری داده به معنای شناسایی و اصلاح مشکلاتی است که در داده وجود دارد. این مشکلات شامل اشتباهات مختلف در ورود داده‌ها، اطلاعات ناقص یا نادرست، اختلاف‌ و تضاد در داده‌ها، یا حتی اطلاعات تکراری هستند.
هدف اصلی پاکسازی داده این است که داده‌ها به‌گونه‌ای تنظیم و بهینه شود که برای تحلیل، پیش‌بینی و تصمیم‌گیری‌های موثر، قابل استفاده باشند.

برای مثال، فرض کنید یک دیتابیس دارید که در آن اطلاعات افراد شامل نام، سن، و آدرس آن‌ها ذخیره شده است. اما ممکن است نام یا آدرس، به شکل نادرست وارد شده باشد یا سن به‌صورت یک عدد منفی یا غیرمنطقی وارد شده باشد. با پاکسازی داده این مشکلات به‌راحتی شناسایی و اصلاح می‌شوند.


بیشتر بخوانید: “کلان داده چیست؟


پاکسازی داده وظیفه چه کسی است؟

تحلیل‌گران داده (Data analysts): این افراد به داده‌ها نگاه دقیقی دارند تا اطمینان حاصل کنند که گزارش‌ها و نتایجی که تولید می‌کنند دقیق و قابل اعتماد هستند. برای این کار، داده‌ها باید پاکسازی شوند تا اشتباهات و ناهماهنگی‌های موجود در آن‌ها پاک شوند.

دانشمندان داده (Data scientists): این افراد با مدل‌های ماشین لرنینگ سروکار دارند، یعنی مدل‌های ماشین لرنینگ را بر اساس داده‌ها آموزش می‌دهند. اگر داده‌ها پاکسازی نشده باشند، ممکن است عملکرد این مدل‌ها کاهش می‌یابد.

برنامه‌نویسان: برنامه‌نویسان در بسیاری از پروژه‌های خود به داده‌های تمیز نیاز دارند. مثلاً، یک برنامه‌نویس وب که برای نمایش اطلاعات به کاربران از داده استفاده می‌کند، اگر این داده‌ها پاکسازی نشده باشند، ممکن است در برنامه مشکلاتی ایجاد شود.


بیشتر بخوانید: “مدیریت داده: کلید موفقیت در عصر اطلاعات


 

اهمیت پاکسازی داده

افزایش دقت داده‌ها

داده‌های نادرست، آمارها و نتایج را تحت تاثیر قرار می‌دهد. با پاکسازی داده، سازمان‌ها تصمیمات مبتنی بر داده را با اطمینان بیشتری می‌گیرند.

افزایش قابلیت استفاده از داده‌ها

داده‌های پاکسازی‌شده و قابل اعتماد به‌شکل گسترده‌تر و در بخش‌های مختلفی از سازمان قابل استفاده هستند.

تحلیل آسان‌تر

پاکسازی داده کمک می‌کند تحلیل داده‌ها آسان‌تر انجام شود. 

ذخیره‌سازی بهتر داده‌ها 

پاکسازی داده و حذف داده‌های غیرضروری و تکراری، هزینه‌ی ذخیره‌سازی داده را کاهش می‌دهد. در نتیجه سازمان‌ها می‌توانند استفاده از منابع داده‌ها را بهینه کنند.

کیفیت داده

با حذف اشتباهاتی مانند املای نادرست، اصلاح فرمت تاریخ، و رفع مشکلات متداول، کیفیت داده‌ها افزایش می‌یابد.

کارایی

پاکسازی داده باعث بهینه‌سازی فرآیند پردازش داده می‌شود، که این به صرفه‌جویی در زمان و منابع کمک می‌کند و فرآیند آنالیز داده را سریع‌تر و کارآمدتر می‌کند.

چه زمانی پاکسازی داده (Data Cleaning) انجام می‌شود؟

پاکسازی داده یا Data Cleaning در فرایند تحلیل داده، مرحله‌ای بسیار مهم است. چون در همین مرحله میزان دقت و قابل اعتماد بودن داده بررسی می‌شود. 

۱. داده‌های خالی یا از دست رفته

در مجموعه داده‌های بزرگ، ممکن است مقادیر خالی یا از دست رفته وجود داشته باشد. برای حل این مشکل، دانشمندان داده از تکنیک‌های پاکسازی داده استفاده می‌کنند تا این مقادیر را با تخمین مناسب پر کنند. به عنوان مثال، اگر یک داده به نام “مکان” وجود دارد که خالی است، دانشمندان داده می‌توانند آن را با میانگین داده‌های “مکان” آن مجموعه داده جایگزین کنند یا یک داده از منبع دیگری پیدا کنند تا آن را پر کنند.

۲. داده‌های پرت (Outliers)

در مجموعه‌های داده ممکن است داده‌هایی وجود داشته باشند که در مقایسه با سایر داده‌ها از نظر مقدار یا رفتار، دورافتاده و پرت باشند. داده‌های پرت باعث اشتباه در تحلیل می‌شود که به نتایج غلط یا تصمیم‌های نادرست منجر می‌شود. به همین دلیل شناسایی داده‌های پرت بسیار مهم است. برای حل این مشکل، دانشمندان داده از تکنیک‌های پاکسازی داده استفاده می‌کنند تا داده‌های پرت را در مجموعه‌های داده شناسایی و حذف کنند.

۳. قالب‌بندی داده (Data formatting)

منظور از قالب‌بندی داده، تبدیل داده‌های موجود به فرمت یا نوعی خاصی از داده است که برای تحلیل‌های آینده مناسب باشد.

برای مثال، اگر داده‌ها شامل انواع مختلف متنی، عددی و دسته‌ای باشند، ممکن است برای انجام تحلیل‌های مختلف نیاز باشد تمام این داده‌ها به یک فرمت خاص تبدیل شوند. در این صورت، باید داده‌های دسته‌ای به عددی یا متنی تبدیل شوند تا به‌طور موثر قابل استفاده باشند.

همچنین، ممکن است یک مجموعه داده از چند منبع مختلف به دست آمده باشد و هر کدام دارای ساختارهای متفاوتی باشند. در این حالت، با استفاده از فرآیند فرمت‌بندی داده، می‌شود این داده‌ها را به یک ساختار یکپارچه تبدیل کرد تا تحلیل آن‌ها به شکل موثرتری انجام شود.

مراحل Data Cleaning با پایتون

زبان برنامه‌نویسی پایتون به لطف کتابخانه‌هایی مانند PANDAS و NUMPY، یک محیط قوی برای پاکسازی داده فراهم کرده است. اگرچه از ابزارهای دیگری مانند اکسل برای پاکسازی داده به صورت دستی استفاده می‌شود، اما پایتون امکانات بسیاری را برای اتوماسیون فرآیند Data Cleaning فراهم می‌کند که آن را برای استفاده در مجموعه داده‌های بزرگ و وظایف روتین، ایده‌آل می‌کند.
برای پاکسازی داده و ایجاد مجموعه داده‌هایی قابل اطمینان باید مراحل زیر انجام شود:

گام ۱: شناسایی اشکالات داده با استفاده از ابزارها

در مرحله اول، تحلیل‌گران داده باید از ابزارهای مشاهده داده مانند Monte Carlo یا Anomalo استفاده کنند تا اشکالات داده‌ها را پیدا کنند.

گام ۲: حذف اختلافات داده

با شناسایی اشکالات داده و ارزیابی آن‌ها، تحلیل‌گران داده تلاش می‌کنند این اشکالات را از مجموعه داده موجود برطرف کنند. 

گام ۳: استانداردسازی فرمت داده‌ها

پس از رفع مشکلات داده‌ها، برای اطمینان از یکنواختی آن‌ها در سراسر مجموعه داده، فرمت آن‌ها استانداردسازی می‌شود. به عنوان مثال، یک مجموعه داده ممکن است شامل تاریخ با فرمت‌های متفاوت باشد. تحلیل‌گران داده باید اطمینان حاصل کنند که تمام داده‌ها در فرمت درست ذخیره شوند، مثلا YYYY/MM/DD یا MM/DD/YYYY.

گام ۴: ادغام داده‌ها

در این مرحله، چند مجموعه داده مختلف در یک مجموعه داده یکپارچه ترکیب می‌شوند، مگر اینکه قوانین حریم خصوصی داده این کار را ممنوع کند. اغلب، این مرحله نیازمند شکستن وابستگی‌های بین مجموعه‌های داده و ادغام آن‌ها با یکدیگر است.

گام ۵: بررسی صحت داده‌ها

تحلیل‌گران داده باید برای اطمینان از دقت، اعتبار و به‌روز بودن داده‌ها، صحت آن را بررسی کنند. این کار با اجرای آزمون‌های صحت داده یا آزمون‌های اعتبار داده انجام می‌شود.

گام ۶: ذخیره داده به صورت ایمن

تحلیل‌گران باید داده‌ها را به صورت ایمن ذخیره کنند تا از دسترسی غیرمجاز به آن جلوگیری شود. این ذخیره‌سازی به‌صورت رمزگذاری داده‌ها، استفاده از پروتکل‌های انتقال فایل و بکاپ‌گیری منظم از مجموعه‌های داده انجام می‌شود.

یک نمونه از پاکسازی داده در زبان پایتون

فرض کنید یک دیتاست داریم که حاوی اطلاعات مربوط به فروش محصولات یک فروشگاه آنلاین است. در این دیتاست، اطلاعاتی مانند نام محصول، قیمت، تعداد فروش، و استان محل فروش قرار دارد.

حالا می‌خواهیم این داده‌ها را بررسی کنیم و داده‌های ناقص یا نامعتبر را پاکسازی کنیم. ابتدا دیتاست را بارگذاری کنیم:

import pandas as pd
# بارگذاری دیتاست
df = pd.read_csv("sales_data.csv")

 

سپس نگاهی کلی به این دیتاست می‌اندازیم تا با ساختار کلی آن آشنا شویم:

 

# نمایش چند سطر اول از دیتاست
print(df.head())

 

در مرحله بعد باید بررسی کنیم که آیا  این دیتاست مقادیر نامعلوم (NaN) دارد یا خیر، و اگر دارد، چند مقدار نامعلوم در هر ستون وجود دارد:

 

# بررسی مقادیر NaN
missing_values = df.isnull().sum()
print("Missing values in each column:\n", missing_values)

 

با توجه به نتایج بالا، می‌توانیم مشکلات دیتاست را شناسایی کرده و مقادیر نامعلوم را بررسی و به شکلی مناسب جایگزین کنیم. این جایگزینی با روش‌هایی مانند جایگزینی با میانگین یا مد مقادیر انجام می‌شود.

برای جایگزینی مقادیر نامعلوم در ستون قیمت محصول با میانگین قیمت‌ها، می‌توانیم از کد زیر استفاده کنیم:

 

# جایگزینی مقادیر NaN با میانگین قیمت‌ها
average_price = df['Price'].mean()
df['Price'].fillna(average_price, inplace=True)

 

همچنین، می‌توانیم مقادیر نامعلوم در ستون استان محل فروش را با مد مقادیر جایگزین کنیم:

 

# جایگزینی مقادیر NaN با مد استان‌ها
mode_state = df['State'].mode()[0]  # اولین مدل مقدار را انتخاب می‌کنیم
df['State'].fillna(mode_state, inplace=True)

 

 

جمع‌بندی

برای جدا کردن اطلاعات مهم از اطلاعات غیرمهم، از پاکسازی داده (Data Cleaning) استفاده می‌شود. هرچه داده‌ها دقیق‌تر باشند، تحلیل‌های دقیق‌تری را هم می‌شود از آن برداشت کرد. همانطور که تحقیقات مجله Harvard Business Review نشان می‌دهد، اطلاعات و داده در تصمیم‌گیری‌های تجاری بسیار مهم است. به همین دلیل، پاکسازی داده باید در اولویت فرآیند تحلیل داده قرار بگیرد. 

زبان برنامه‌نویسی پایتون به لطف کتابخانه‌های کاربردی برای کار با داده، یکی از بهترین ابزارها برای Data Cleaning محسوب می‌شود.


اگر به کار با داده‌ها و تحلیل و آنالیز آن‌ها، علاقه دارید، دوره جامع آموزش پایتون را از دست ندهید.


 

دوره تخصصی یادگیری ماشین

در یک دوره آموزشی متخصص یادگیری ماشین شوید.

از یادگیری ماشین می توان در صنایع مختلف با اهداف مختلف استفاده کرد. ماشین لرنینگ باعث افزایش بهره وری در صنایع می شود، به بازاریابی محصول کمک کرده و پیش بینی دقیق فروش را ساده تر می کند. پیش بینی های دقیق پزشکی و تشخیص ها را تسهیل می کند. دقت در قوانین و مدل های مالی را بهبود می بخشد. به سیستم های توصیه گر، الگوریتم های فرا ابتکاری و حرکت ربات ها کمک خواهد کرد. در بحث فروش میتواند محصولات مناسب تری را به مشتری پیشنهاد دهد( با کمک به تقسیم بندی بهتر و پیش بینی دقیق طول عمر محصولات ) و ...
استفاده از سیستم های ماشین لرنینگ می تواند تا حد زیادی حجم کاری ما را کاهش دهد. به خصوص کارهایی که نیاز به آنالیز حجم عظیمی از داده و تصمیم گیری بر اساس این داده ها را دارد بسیار تسهیل می کند. سیستم های مبتنی بر ماشین لرنینگ ظرفیت انجام کار صد نفر را همزمان دارد و تنها به کمک ماشین ها می توان بدون صرف وقت و انرژی زیاد، کارهای سنگین را انجام داده و در عین حال پول و درآمد بیشتری کسب کرد. ماشین لرنینگ با خودکارسازی فرایندها و صرفه جویی در زمان، به ما کمک می کند تا بتوانیم زمان و انرژی خود را بر تصمیم گیری های پیچیده تری متمرکز کنیم.
ادامه...

مشاهده نسخه گرافیکی و کامل