Pandas Cheat Sheetما در دنیای امروز توسط دادههایی که به شکلها و فرمهای مختلف وجود دارند، محاصره شدهایم. مدیریت حجم بالای داده به صورت دستی برای انسان امکانناپذیر است. به همین دلیل برای تحلیل یا دستهبندی این حجم از داده نیاز به ابزارهای خاصی داریم که بتوانند کار تحلیل داده را برای ما آسانتر کنند.
همه ما میدانیم که زبان برنامهنویسی پایتون یک زبان همهکاره است. یکی از دلایل محبوبیت پایتون کتابخانههایی است که از آنها در علوم داده و ماشین لرنینگ استفاده میشود. از میان تمامی این کتابخانهها Pandas یکی از برجستهترین کتابخانههای پایتون است. در این مقاله به معرفی کتابخانه Pandas خواهیم پرداخت.
آنچه در این نوشته خواهیم داشت
Pandas چیست؟
شاید نام Pandas شما را به یاد خرسهای پاندا بیندازد. اما در واقع “Pandas” از ترکیب دو کلمه “Panel data” و “Python Data Analysis” به وجود آمده است. پانداس یکی از کتابخانههای معروف زبان برنامهنویسی پایتون در علم داده است. کتابخانه پانداس شامل توابعی است که در آنالیز داده استفاده می شود. مثلا انتخاب ستون یا ردیفی خاص، دسته بندی و مرتب سازی، ادغام دادههای مختلف و …
علم داده شاخه ای از علوم کامپیوتر است که در آن به مطالعه نحوه ذخیره، استفاده و تجزیه و تحلیل دادهها برای استخراج اطلاعات از آن پرداخته میشود.
بیشتر بخوانید: “با این نقشه راه متخصص داده شوید“
Pandas پردازش و تجزیه و تحلیل دادهها را در پنج مرحله انجام میدهد: بارگذاری، آماده سازی، دستکاری، مدل سازی و تجزیه و تحلیل.
پانداس یک کتابخانه متن باز و رایگان است. بسیاری از افراد معتقدند این کتابخانه از پایتون، رقیب اصلی زبان برنامه نویسی R است که به صورت خاص در آمار و تحلیل دادهها استفاده میشود. با این حال، خوب است بدانید تجزیه و تحلیل دادهها در پانداس آسانتر از R است.
در مقاله “مقایسه جامع زبان های برنامه نویسی پایتون و R” میتوانید به صورت کامل با تفاوت این دو زبان برنامه نویسی آشنا شوید.
مزایای کتابخانه پانداس
- کتابخانه Pandas سرعت دستکاری و تجزیه و تحلیل دادههای پیچیده را به صورت سریع و کارآمد انجام میدهد.
- این ابزار امکان تغییر اندازه داده را فراهم میکند.
- پانداس یک ابزار الزامی برای متخصصان داده است. به همین دلیل دارای جامعه بزرگی است.
- پانداس از داده های مختلف پشتیبانی میکند.
- تحلیلگران داده می توانند به راحتی مجموعه داده ها را با هم ادغام کنند.
ساختار داده در پانداس
Series
منظور از series در پانداس آرایه تک بعدی (ستونی) است که قادر به ذخیره انواع داده ها (اعداد صحیح، رشته، اعداد اعشاری، اشیاء پایتون و غیره) است. ما به راحتی می توانیم لیست، تاپل و دیکشنری را با استفاده از متد Series() به سری تبدیل کنیم. ردیف ها در سری، تحت عنوان index مشخص می شوند.
ویژگی های سری ها
در ستون سری ها امکان نام گذاری وجود ندارد.
امکان تبدیل سری به دیتا فریم و برعکس وجود دارد. یعنی دو یا چند سری می توانند باهم ترکیب شوند و یک دیتا فریم را ایجاد کنند. همچنین یک دیتا فریم شامل چند ستون می تواند به چند سری یک ستونه تبدیل شود.
DataFrame
دیتا فریم ها در پانداس در واقع آرایه های دوبعدی هستند که داده ها را در جدول با ستون و ردیف مشخص نگهداری می کنند.
ویژگی های DataFrame
ردیفها و ستونها در دیتا فریم می توانند نامگذاری شوند.
دیتا فریم از مجموعه دادههای ناهمگن پشتیبانی میکند.
در دیتا فریم میتوان عملیات حسابی را بر روی دادهها انجام داد.
دیتا فریم از دادههای CSV، Excel، JSON و SQL پشتیبانی میکند.
در دیتا فریم امکان دسترسی به داده های از دست رفته وجود دارد.
نصب Pandas
از طریق آناکوندا
چند راه مختلف برای نصب پانداس بر روی کامپیوتر شما وجود دارد. روش توصیه شده در داکیومنت پانداس نصب آن بر روی Anaconda است. آناکوندا همچنین شامل سایر بسته های محبوب SciPy مانند NumPy، Matplotlib و IPython است که همگی با Pandas عالی کار می کنند.
Pip Install
دومین روش نصب پانداس استفاده از pip است که به شما امکان میدهد با استفاده از دستور pip install در ترمینال، بستههای جداگانه را روی رایانه خود نصب کنید.
# Install pandas using pip
pip install pandas
(or)
pip3 install pandas
ویژگیهای Pandas
خواندن و نوشتن داده در جدول
pandas از انواع فرمتهای فایل یا منابع داده مانند csv، excel، sql، json، parket و… پشتیبانی میکند. وارد کردن داده ها از هر یک از این منابع داده توسط یک تابع با پیشوند read_* انجام میشود. به طور مشابه، از پیشوند to_* نیز میتوان برای ذخیره دادهها استفاده کرد.
انتخاب یا فیلتر کردن زیرمجموعهای از جدول
Pandas این قابلیت را دارد که میتوان سطرها و یا ستون هایی خاص از یک جدول را انتخاب و یا فیلتر نمود.
رسم نمودار با Pandas
pandas با استفاده از استفاده از کتابخانه قدرتمند Matplotlib، دادهها را به صورت نمودارهای خاص نمایش میدهد. شما میتوانید انواع مختلف نمودار مانند نمودار پراکندگی، میلهای ، دایرهای و غیره را ترسیم کنید.
پیشنهاد میکنم برای آشنایی بیشتر با این بخش، مقاله “بصری سازی در پایتون +(معرفی کتابخانه های محبوب)” را مطالعه فرمایید.
اضافه کردن ستون به DataFrame
با Pandas میتوانید ستون جدیدی را بر اساس ستونهای موجود در دیتا فریم، به آن اضافه کنید.
خلاصهسازی دادهها
در Pandas عملگرهای پرکاربرد و پایه در آمار مانند میانگین، میانه، حداقل، حداکثر و… به راحتی قابل محاسبه هستند. شما میتوانید این عملگرها را بر روی تمام دادهها و یا بخشی از آن اعمال کنید.
تغییر چیدمان جدول
چندین روش متفاوت برای تغییر شکل جداول وجود دارد. شما میتوانید با استفاده از تابع ()melt و ()pivot این کار را انجام دهید.
ترکیب دادههای چند جدول
پانداس امکان ترکیب دادههای چند جدول در ردیف و ستون را دارد.
امکان مدیریت دادههای سری زمانی یا Time series data
pands از دادههای سری زمانی به خوبی پشتیبانی کرده و ابزارهای مناسبی را برای کار با این دادهها ارائه میدهد.
کار با دادههای متنی
دادهها فقط شامل اعداد نیستند. Pandas طیف گستردهای از توابع را برای تمیزکاری دادههای متنی و استخراج اطلاعات مفید از آنها ارائه میدهد.
Pandas تنها محدود به ویژگیهایی که در این بخش به آن اشاره کردیم نیست. وب سایPandas Cheat Sheet (Free download)ت رسمی Pandas یک فایل راهنما برای کار با Pandas را ارئه کرده است. شما می توانید این فایل را از اینجا دانلود کنید.
چرا باید پانداس را یاد بگیریم؟
اگر با دادههای زیادی سر و کار دارید، یا میخواهید در علم داده فعالیت کنید، پانداس یکی از ابزارهای الزامی است. پانداس به ما این امکان را میدهند که دادههای بزرگ را تجزیه و تحلیل کنیم و بر اساس تئوریهای آماری نتیجهگیری کنیم.
پانداس میتواند مجموعه دادههای نامرتب را تمیز و آنها را خوانا و مرتبط کنند.
یکی از عناصر کلیدی در علم داده و ماشین لرنینگ این است که بتوانید محتوای دادههای خود را به طور موثر دستکاری و ارزیابی کنید. پانداس نه تنها روشی انعطافپذیر برای مدیریت دادهها ارائه میدهد، بلکه مهمتر از آن به شما امکان میدهد الگوهای بین داده ها را، به وضوح تجزیه و تحلیل کنید.
همانطور که گفته شد، پانداس یکی از کتابخانههای زبان برنامه نویسی پایتون است. در نتیجه اگر از قبل با زبان پایتون آشنایی داشته باشید، میتوانید به راحتی با این کتابخانه کار کنید. اگر هم با زبان پایتون آشنا نیستید، نگران نباشید. چرا که زبان برنامه نویسی پایتون یکی از آسان ترین زبان های برنامه نویسی برای یادگیری است که در عین سادگی، قابلیت های فوق العاده ای را در اختیار برنامه نویسان قرار می دهد. در نتیجه پیشنهاد میشود برای کار با pandas ابتدا در دوره آموزش پایتون شرکت کنید و پس از آن در دوره علوم داده یا آموزش ماشین لرنینگ به صورت عمیقتر به یادگیری ادامه دهید.