این مقاله را میتوانید در مدت زمان 6 دقیقه مطالعه کنید منتشر شده در تاریخ: مرداد ۱۸ام, ۱۴۰۱ آخرین بروزرسانی: آبان ۳۰ام, ۱۴۰۱
Pandas Cheat Sheetما در دنیای امروز توسط دادههایی که به شکلها و فرمهای مختلف وجود دارند، محاصره شدهایم. مدیریت حجم بالای داده به صورت دستی برای انسان امکانناپذیر است. به همین دلیل برای تحلیل یا دستهبندی این حجم از داده نیاز به ابزارهای خاصی داریم که بتوانند کار تحلیل داده را برای ما آسانتر کنند.
همه ما میدانیم که زبان برنامهنویسی پایتون یک زبان همهکاره است. یکی از دلایل محبوبیت پایتون کتابخانههایی است که از آنها در علوم داده و ماشین لرنینگ استفاده میشود. از میان تمامی این کتابخانهها Pandas یکی از برجستهترین کتابخانههای پایتون است. در این مقاله به معرفی کتابخانه Pandas خواهیم پرداخت.
آنچه در این نوشته خواهیم داشت
شاید نام Pandas شما را به یاد خرسهای پاندا بیندازد. اما در واقع “Pandas” از ترکیب دو کلمه “Panel data” و “Python Data Analysis” به وجود آمده است. پانداس یکی از کتابخانههای معروف زبان برنامهنویسی پایتون در علم داده است. کتابخانه پانداس شامل توابعی است که در آنالیز داده استفاده می شود. مثلا انتخاب ستون یا ردیفی خاص، دسته بندی و مرتب سازی، ادغام دادههای مختلف و …
علم داده شاخه ای از علوم کامپیوتر است که در آن به مطالعه نحوه ذخیره، استفاده و تجزیه و تحلیل دادهها برای استخراج اطلاعات از آن پرداخته میشود.
بیشتر بخوانید: “با این نقشه راه متخصص داده شوید“
Pandas پردازش و تجزیه و تحلیل دادهها را در پنج مرحله انجام میدهد: بارگذاری، آماده سازی، دستکاری، مدل سازی و تجزیه و تحلیل.
پانداس یک کتابخانه متن باز و رایگان است. بسیاری از افراد معتقدند این کتابخانه از پایتون، رقیب اصلی زبان برنامه نویسی R است که به صورت خاص در آمار و تحلیل دادهها استفاده میشود. با این حال، خوب است بدانید تجزیه و تحلیل دادهها در پانداس آسانتر از R است.
در مقاله “مقایسه جامع زبان های برنامه نویسی پایتون و R” میتوانید به صورت کامل با تفاوت این دو زبان برنامه نویسی آشنا شوید.
منظور از series در پانداس آرایه تک بعدی (ستونی) است که قادر به ذخیره انواع داده ها (اعداد صحیح، رشته، اعداد اعشاری، اشیاء پایتون و غیره) است. ما به راحتی می توانیم لیست، تاپل و دیکشنری را با استفاده از متد Series() به سری تبدیل کنیم. ردیف ها در سری، تحت عنوان index مشخص می شوند.
در ستون سری ها امکان نام گذاری وجود ندارد.
امکان تبدیل سری به دیتا فریم و برعکس وجود دارد. یعنی دو یا چند سری می توانند باهم ترکیب شوند و یک دیتا فریم را ایجاد کنند. همچنین یک دیتا فریم شامل چند ستون می تواند به چند سری یک ستونه تبدیل شود.
دیتا فریم ها در پانداس در واقع آرایه های دوبعدی هستند که داده ها را در جدول با ستون و ردیف مشخص نگهداری می کنند.
ردیفها و ستونها در دیتا فریم می توانند نامگذاری شوند.
دیتا فریم از مجموعه دادههای ناهمگن پشتیبانی میکند.
در دیتا فریم میتوان عملیات حسابی را بر روی دادهها انجام داد.
دیتا فریم از دادههای CSV، Excel، JSON و SQL پشتیبانی میکند.
در دیتا فریم امکان دسترسی به داده های از دست رفته وجود دارد.
چند راه مختلف برای نصب پانداس بر روی کامپیوتر شما وجود دارد. روش توصیه شده در داکیومنت پانداس نصب آن بر روی Anaconda است. آناکوندا همچنین شامل سایر بسته های محبوب SciPy مانند NumPy، Matplotlib و IPython است که همگی با Pandas عالی کار می کنند.
دومین روش نصب پانداس استفاده از pip است که به شما امکان میدهد با استفاده از دستور pip install در ترمینال، بستههای جداگانه را روی رایانه خود نصب کنید.
# Install pandas using pip
pip install pandas
(or)
pip3 install pandas
pandas از انواع فرمتهای فایل یا منابع داده مانند csv، excel، sql، json، parket و… پشتیبانی میکند. وارد کردن داده ها از هر یک از این منابع داده توسط یک تابع با پیشوند read_* انجام میشود. به طور مشابه، از پیشوند to_* نیز میتوان برای ذخیره دادهها استفاده کرد.
Pandas این قابلیت را دارد که میتوان سطرها و یا ستون هایی خاص از یک جدول را انتخاب و یا فیلتر نمود.
pandas با استفاده از استفاده از کتابخانه قدرتمند Matplotlib، دادهها را به صورت نمودارهای خاص نمایش میدهد. شما میتوانید انواع مختلف نمودار مانند نمودار پراکندگی، میلهای ، دایرهای و غیره را ترسیم کنید.
پیشنهاد میکنم برای آشنایی بیشتر با این بخش، مقاله “بصری سازی در پایتون +(معرفی کتابخانه های محبوب)” را مطالعه فرمایید.
با Pandas میتوانید ستون جدیدی را بر اساس ستونهای موجود در دیتا فریم، به آن اضافه کنید.
در Pandas عملگرهای پرکاربرد و پایه در آمار مانند میانگین، میانه، حداقل، حداکثر و… به راحتی قابل محاسبه هستند. شما میتوانید این عملگرها را بر روی تمام دادهها و یا بخشی از آن اعمال کنید.
چندین روش متفاوت برای تغییر شکل جداول وجود دارد. شما میتوانید با استفاده از تابع ()melt و ()pivot این کار را انجام دهید.
پانداس امکان ترکیب دادههای چند جدول در ردیف و ستون را دارد.
pands از دادههای سری زمانی به خوبی پشتیبانی کرده و ابزارهای مناسبی را برای کار با این دادهها ارائه میدهد.
دادهها فقط شامل اعداد نیستند. Pandas طیف گستردهای از توابع را برای تمیزکاری دادههای متنی و استخراج اطلاعات مفید از آنها ارائه میدهد.
Pandas تنها محدود به ویژگیهایی که در این بخش به آن اشاره کردیم نیست. وب سایPandas Cheat Sheet (Free download)ت رسمی Pandas یک فایل راهنما برای کار با Pandas را ارئه کرده است. شما می توانید این فایل را از اینجا دانلود کنید.
اگر با دادههای زیادی سر و کار دارید، یا میخواهید در علم داده فعالیت کنید، پانداس یکی از ابزارهای الزامی است. پانداس به ما این امکان را میدهند که دادههای بزرگ را تجزیه و تحلیل کنیم و بر اساس تئوریهای آماری نتیجهگیری کنیم.
پانداس میتواند مجموعه دادههای نامرتب را تمیز و آنها را خوانا و مرتبط کنند.
یکی از عناصر کلیدی در علم داده و ماشین لرنینگ این است که بتوانید محتوای دادههای خود را به طور موثر دستکاری و ارزیابی کنید. پانداس نه تنها روشی انعطافپذیر برای مدیریت دادهها ارائه میدهد، بلکه مهمتر از آن به شما امکان میدهد الگوهای بین داده ها را، به وضوح تجزیه و تحلیل کنید.
همانطور که گفته شد، پانداس یکی از کتابخانههای زبان برنامه نویسی پایتون است. در نتیجه اگر از قبل با زبان پایتون آشنایی داشته باشید، میتوانید به راحتی با این کتابخانه کار کنید. اگر هم با زبان پایتون آشنا نیستید، نگران نباشید. چرا که زبان برنامه نویسی پایتون یکی از آسان ترین زبان های برنامه نویسی برای یادگیری است که در عین سادگی، قابلیت های فوق العاده ای را در اختیار برنامه نویسان قرار می دهد. در نتیجه پیشنهاد میشود برای کار با pandas ابتدا در دوره آموزش پایتون شرکت کنید و پس از آن در دوره علوم داده یا آموزش ماشین لرنینگ به صورت عمیقتر به یادگیری ادامه دهید.
از یادگیری ماشین می توان در صنایع مختلف با اهداف مختلف استفاده کرد. ماشین لرنینگ باعث افزایش بهره وری در صنایع می شود، به بازاریابی محصول کمک کرده و پیش بینی دقیق فروش را ساده تر می کند. پیش بینی های دقیق پزشکی و تشخیص ها را تسهیل می کند. دقت در قوانین و مدل های مالی را بهبود می بخشد. به سیستم های توصیه گر، الگوریتم های فرا ابتکاری و حرکت ربات ها کمک خواهد کرد. در بحث فروش میتواند محصولات مناسب تری را به مشتری پیشنهاد دهد( با کمک به تقسیم بندی بهتر و پیش بینی دقیق طول عمر محصولات ) و ...
استفاده از سیستم های ماشین لرنینگ می تواند تا حد زیادی حجم کاری ما را کاهش دهد. به خصوص کارهایی که نیاز به آنالیز حجم عظیمی از داده و تصمیم گیری بر اساس این داده ها را دارد بسیار تسهیل می کند. سیستم های مبتنی بر ماشین لرنینگ ظرفیت انجام کار صد نفر را همزمان دارد و تنها به کمک ماشین ها می توان بدون صرف وقت و انرژی زیاد، کارهای سنگین را انجام داده و در عین حال پول و درآمد بیشتری کسب کرد. ماشین لرنینگ با خودکارسازی فرایندها و صرفه جویی در زمان، به ما کمک می کند تا بتوانیم زمان و انرژی خود را بر تصمیم گیری های پیچیده تری متمرکز کنیم.
ادامه...
از یادگیری ماشین می توان در صنایع مختلف با اهداف مختلف استفاده کرد. ماشین لرنینگ باعث افزایش بهره وری در صنایع می شود، به بازاریابی محصول کمک کرده و پیش بینی دقیق فروش را ساده تر می کند. پیش بینی های دقیق پزشکی و تشخیص ها را تسهیل می کند. دقت در قوانین و مدل های مالی را بهبود می بخشد. به سیستم های توصیه گر، الگوریتم های فرا ابتکاری و حرکت ربات ها کمک خواهد کرد. در بحث فروش میتواند محصولات مناسب تری را به مشتری پیشنهاد دهد( با کمک به تقسیم بندی بهتر و پیش بینی دقیق طول عمر محصولات ) و ...
استفاده از سیستم های ماشین لرنینگ می تواند تا حد زیادی حجم کاری ما را کاهش دهد. به خصوص کارهایی که نیاز به آنالیز حجم عظیمی از داده و تصمیم گیری بر اساس این داده ها را دارد بسیار تسهیل می کند. سیستم های مبتنی بر ماشین لرنینگ ظرفیت انجام کار صد نفر را همزمان دارد و تنها به کمک ماشین ها می توان بدون صرف وقت و انرژی زیاد، کارهای سنگین را انجام داده و در عین حال پول و درآمد بیشتری کسب کرد. ماشین لرنینگ با خودکارسازی فرایندها و صرفه جویی در زمان، به ما کمک می کند تا بتوانیم زمان و انرژی خود را بر تصمیم گیری های پیچیده تری متمرکز کنیم.
ادامه...
نگین سعیدی