Site icon آکادمی آمانج

Pandas، ابزاری برای مدیریت داده

pandas چیست؟

Pandas Cheat Sheetما در دنیای امروز توسط داده‌هایی که به شکل‌ها و فرم‌های مختلف وجود دارند، محاصره شده‌ایم. مدیریت حجم بالای داده به صورت دستی برای انسان امکان‌ناپذیر است. به همین دلیل برای تحلیل یا دسته‌بندی این حجم از داده نیاز به ابزارهای خاصی داریم که بتوانند کار تحلیل داده را برای ما آسان‌تر کنند.

همه ما می‌دانیم که زبان برنامه‌نویسی پایتون یک زبان همه‌کاره است. یکی از دلایل محبوبیت پایتون کتابخانه‌هایی است که از آن‌ها در علوم داده و ماشین لرنینگ استفاده می‌شود. از میان تمامی این کتابخانه‌ها Pandas یکی از برجسته‌ترین کتابخانه‌های پایتون است. در این مقاله به معرفی کتابخانه Pandas خواهیم پرداخت.

 

Pandas چیست؟

شاید نام Pandas شما را به یاد خرس‌های پاندا بیندازد. اما در واقع “Pandas” از ترکیب دو کلمه  “Panel data” و “Python Data Analysis” به وجود آمده است. پانداس یکی از کتابخانه‌های معروف زبان برنامه‌نویسی پایتون در علم داده است. کتابخانه پانداس شامل توابعی است که در آنالیز داده استفاده می شود. مثلا انتخاب ستون یا ردیفی خاص، دسته بندی و مرتب سازی، ادغام داده‌های مختلف و …

علم داده شاخه ای از علوم کامپیوتر است که در آن به مطالعه نحوه ذخیره، استفاده و تجزیه و تحلیل داده‌ها برای استخراج اطلاعات از آن پرداخته می‌شود.

 


بیشتر بخوانید: “با این نقشه راه متخصص داده شوید


 

Pandas پردازش و تجزیه و تحلیل داده‌ها را در پنج مرحله انجام می‌دهد: بارگذاری، آماده سازی، دستکاری، مدل سازی و تجزیه و تحلیل.

پانداس یک کتابخانه متن باز و رایگان است. بسیاری از افراد معتقدند این کتابخانه از پایتون، رقیب اصلی زبان برنامه نویسی R است که به صورت خاص در آمار و تحلیل داده‌ها استفاده می‌شود. با این حال، خوب است بدانید تجزیه و تحلیل داده‌ها در پانداس آسان‌تر از R است.

 


در مقاله “مقایسه جامع زبان های برنامه نویسی پایتون و R” می‌توانید به صورت کامل با تفاوت این دو زبان برنامه نویسی آشنا شوید.


مزایای کتابخانه پانداس

ساختار داده در پانداس

Series

منظور از series در پانداس آرایه تک بعدی (ستونی) است که قادر به ذخیره انواع داده ها (اعداد صحیح، رشته، اعداد اعشاری، اشیاء پایتون و غیره) است. ما به راحتی می توانیم لیست، تاپل و دیکشنری را با استفاده از متد Series() به سری تبدیل کنیم. ردیف ها در سری، تحت عنوان index مشخص می شوند.

 

ویژگی های سری ها

در ستون سری ها امکان نام گذاری وجود ندارد.

امکان تبدیل سری به دیتا فریم و برعکس وجود دارد. یعنی دو یا چند سری می توانند باهم ترکیب شوند و یک دیتا فریم را ایجاد کنند. همچنین یک دیتا فریم شامل چند ستون می تواند به چند سری یک ستونه تبدیل شود.

DataFrame

دیتا فریم ها در پانداس در واقع آرایه های دوبعدی هستند که داده ها را در جدول با ستون و ردیف مشخص نگهداری می کنند.

ویژگی های DataFrame

ردیف‌ها و ستون‌ها در دیتا فریم می توانند نام‌گذاری شوند.

دیتا فریم از مجموعه داده‌های ناهمگن پشتیبانی می‌کند.

در دیتا فریم می‌توان عملیات حسابی را بر روی داده‌‌ها انجام داد.

دیتا فریم از داده‌های CSV، Excel، JSON و SQL پشتیبانی می‌کند.

در دیتا فریم امکان دسترسی به داده های از دست رفته وجود دارد.

 

نصب Pandas

از طریق آناکوندا

چند راه مختلف برای نصب پانداس بر روی کامپیوتر شما وجود دارد. روش توصیه شده در داکیومنت پانداس نصب آن بر روی Anaconda است. آناکوندا همچنین شامل سایر بسته های محبوب SciPy مانند NumPy، Matplotlib و IPython است که همگی با Pandas عالی کار می کنند.

 

 

Pip Install

دومین روش نصب پانداس استفاده از pip است که به شما امکان می‌دهد با استفاده از دستور pip install در ترمینال، بسته‌های جداگانه را روی رایانه خود نصب کنید.

# Install pandas using pip
pip install pandas
(or)
pip3 install pandas

ویژگی‌های Pandas

خواندن و نوشتن داده در جدول

pandas از انواع فرمت‌های فایل یا منابع داده مانند csv، excel، sql، json، parket و… پشتیبانی می‌کند. وارد کردن داده ها از هر یک از این منابع داده توسط یک تابع با پیشوند read_* انجام می‌شود. به طور مشابه، از پیشوند to_* نیز می‌توان برای ذخیره داده‌ها استفاده کرد.

 

 

 

انتخاب یا فیلتر کردن زیرمجموعه‌ای از جدول

Pandas این قابلیت را دارد که می‌توان سطرها و یا ستون هایی خاص از یک جدول را انتخاب و یا فیلتر نمود.

 

 

 

رسم نمودار با Pandas

pandas با استفاده از استفاده از کتابخانه قدرتمند Matplotlib، داده‌ها را به صورت نمودارهای خاص نمایش می‌دهد. شما می‌توانید انواع مختلف نمودار مانند نمودار پراکندگی، میله‌ای ، دایره‌ای و غیره را ترسیم کنید.

 


پیشنهاد می‌کنم برای آشنایی بیشتر با این بخش، مقاله “بصری سازی در پایتون +(معرفی کتابخانه های محبوب)” را مطالعه فرمایید.


اضافه کردن ستون به DataFrame

با Pandas می‌توانید ستون جدیدی را بر اساس ستون‌های موجود در دیتا فریم، به آن اضافه کنید.

 

 

خلاصه‌سازی داده‌ها

در Pandas عملگرهای پرکاربرد و پایه در آمار مانند میانگین، میانه، حداقل، حداکثر و… به راحتی قابل محاسبه هستند. شما می‌توانید این عملگرها را بر روی تمام داده‌ها و یا بخشی از آن اعمال کنید.

 

 

 

تغییر چیدمان جدول

چندین روش متفاوت برای تغییر شکل جداول وجود دارد. شما می‌توانید با استفاده از تابع ()melt و ()pivot این کار را انجام دهید.

 

 

 

ترکیب داده‌های چند جدول

پانداس امکان ترکیب داده‌های چند جدول در ردیف و ستون را دارد.

 

 

 

امکان مدیریت داده‌های سری زمانی یا Time series data

pands از داده‌های سری زمانی به خوبی پشتیبانی کرده و ابزارهای مناسبی را برای کار با این داده‌ها ارائه می‌دهد.

 

کار با داده‌های متنی

داده‌ها فقط شامل اعداد نیستند. Pandas طیف گسترده‌ای از توابع را برای تمیزکاری داده‌های متنی و استخراج اطلاعات مفید از آن‌ها ارائه می‌دهد.

Pandas تنها محدود به ویژگی‌هایی که در این بخش به آن اشاره کردیم نیست. وب سایPandas Cheat Sheet (Free download)ت رسمی Pandas یک فایل راهنما برای کار با Pandas را ارئه کرده است. شما می توانید این فایل را از این‌جا دانلود کنید.

 

دانلود فایل راهنمای Pandas

 

چرا باید پانداس را یاد بگیریم؟

اگر با داده‌های زیادی سر و کار دارید، یا می‌خواهید در علم داده فعالیت کنید، پانداس یکی از ابزارهای الزامی است. پانداس به ما این امکان را می‌دهند که داده‌های بزرگ را تجزیه و تحلیل کنیم و بر اساس تئوری‌های آماری نتیجه‌گیری کنیم.

پانداس می‌تواند مجموعه داده‌های نامرتب را تمیز و آن‌ها را خوانا و مرتبط کنند.

یکی از عناصر کلیدی در علم داده و ماشین لرنینگ این است که بتوانید محتوای داده‌های خود را به طور موثر دستکاری و ارزیابی کنید. پانداس نه تنها روشی انعطاف‌پذیر برای مدیریت داده‌ها ارائه می‌دهد، بلکه مهم‌تر از آن به شما امکان می‌دهد الگوهای بین داده ها را، به وضوح تجزیه و تحلیل کنید.

همانطور که گفته شد، پانداس یکی از کتابخانه‌های زبان برنامه نویسی پایتون است. در نتیجه اگر از قبل با زبان پایتون آشنایی داشته باشید، می‌توانید به راحتی با این کتابخانه کار کنید. اگر هم با زبان پایتون آشنا نیستید، نگران نباشید. چرا که زبان برنامه نویسی پایتون یکی از آسان ترین زبان های برنامه نویسی برای یادگیری است که در عین سادگی، قابلیت های فوق العاده ای را در اختیار برنامه نویسان قرار می دهد. در نتیجه پیشنهاد می‌شود برای کار با pandas ابتدا در دوره آموزش پایتون شرکت کنید و پس از آن در دوره علوم داده یا آموزش ماشین لرنینگ به صورت عمیق‌تر به یادگیری ادامه دهید.

مشاهده نسخه گرافیکی و کامل