سلام! بهعنوان تامینکننده nan با کیفیت بالا (که یک اصطلاح معمولی نیست، اما اجازه دهید آن را برای این وبلاگ بنویسیم)، من سهم من از خطوط لوله پیش پردازش دادهها و مقادیر مزاحم «nan» را که اغلب ظاهر میشوند، دیدهام. بنابراین، در این وبلاگ، من به شما آموزش میدهم که چگونه با این ارزشهای «نان» مانند یک حرفهای رفتار کنید.
ابتدا بیایید بفهمیم که ارزشهای «نان» چیست. "Nan" مخفف "Not a Number" است. این یک مقدار ممیز شناور ویژه است که نشان دهنده یک مقدار تعریف نشده یا غیرقابل نمایش در محاسبات عددی است. به دلایل مختلف می توانید این مقادیر 'nan' را در مجموعه داده ها پیدا کنید. ممکن است هنگام جمعآوری دادهها خطایی رخ داده باشد، مانند نقص سنسور یا فراموشی کاربر برای وارد کردن یک مقدار. یا شاید محاسبه ای وجود داشته باشد که منجر به یک عملیات نامعتبر شده است، مانند تقسیم بر صفر.
حال، چرا رسیدگی به مقادیر «نان» اینقدر مهم است؟ خب، بیشتر الگوریتمهای یادگیری ماشین و ابزارهای تجزیه و تحلیل دادهها نمیتوانند مقادیر «nan» را مدیریت کنند. آنها یا خطا می دهند یا نتایج نادرستی به شما می دهند. بنابراین، برخورد با مقادیر 'nan' یک گام مهم در خط لوله پیش پردازش داده است.


1. شناسایی ارزش های 'نان'
اولین قدم در مدیریت مقادیر 'nan' شناسایی آنهاست. در پایتون، اگر از کتابخانه هایی مانند پانداها استفاده می کنید، بسیار آسان است. می توانید استفاده کنیدisnull()یااست ()روش ها به عنوان مثال:
وارد کردن پانداها به عنوان pd وارد کردن numpy به عنوان np داده = {'col1': [1, 2, np.nan, 4], 'col2': [5, np.nan, 7, 8]} df = pd.DataFrame(data) nan_mask = df.isnull() print(nan_mask)
این کد یک DataFrame با مقادیر «nan» ایجاد می کند و سپس یک ماسک بولی ایجاد می کند که نشان می دهد مقادیر «nan» کجا هستند.
2. حذف مقادیر 'nan'
یکی از سادهترین راهها برای مدیریت مقادیر 'nan' حذف آنهاست. در پانداها می توانید ازdrop()روش
clean_df = df.dropna() print(clean_df)
با این کار هر ردیفی که حاوی مقادیر 'nan' باشد حذف می شود. با این حال، این رویکرد دارای معایبی است. اگر مقادیر "nan" زیادی دارید، ممکن است در نهایت مقدار قابل توجهی از داده ها را از دست بدهید. و اگر مقادیر 'nan' به طور تصادفی توزیع نشده باشند، می توانید سوگیری را در مجموعه داده خود وارد کنید.
3. نقاشی "نان" ارزش ها
Imputation روش پیچیده تری برای مدیریت مقادیر "nan" است. به جای حذف نقاط داده با مقادیر 'nan'، آنها را با مقادیر تخمینی جایگزین می کنید.
میانگین / میانه / انتساب حالت
برای ستون های عددی، می توانید مقادیر 'nan' را با میانگین، میانه یا حالت ستون جایگزین کنید.
mean_col1 = df['col1'].mean() df['col1'] = df['col1'].fillna(mean_col1)
این کد مقادیر 'nan' در ستون 'col1' را با میانگین آن ستون جایگزین می کند. محاسبه میانگین سریع و آسان است، اما می تواند واریانس داده های شما را کاهش دهد. اگر دادههای شما دارای مقادیر پرت باشد، میانه گزینه بهتری است، زیرا میانگین کمتر تحت تأثیر مقادیر شدید قرار میگیرد.
برای ستون های طبقه بندی شده، می توانید از حالت (متداول ترین مقدار) استفاده کنید.
mode_col2 = df['col2'].mode()[0] df['col2'] = df['col2'].fillna(mode_col2)
درون یابی
درون یابی روش دیگری برای نسبت دادن مقادیر 'nan' است، به ویژه برای داده های سری زمانی. پانداها یکinterpolate()روش
df = pd.DataFrame({'value': [1, np.nan, 3, 4, np.nan, 6]}) df['value'] = df['value'].interpolate() print(df)
این روش مقادیر گمشده را بر اساس مقادیر نقاط داده مجاور تخمین می زند.
4. استفاده از تکنیک های پیشرفته
همچنین تکنیکهای پیشرفتهتری برای مدیریت مقادیر «nan» وجود دارد، مانند استفاده از الگوریتمهای یادگیری ماشین برای پیشبینی مقادیر از دست رفته. به عنوان مثال، می توانید از یک درخت تصمیم یا یک جنگل تصادفی برای پیش بینی مقادیر 'nan' بر اساس سایر ویژگی های مجموعه داده خود استفاده کنید.
محصولات ما و نحوه تناسب آنها
به عنوان یک تامین کننده نانو، من می دانم که داشتن داده های تمیز و قابل اعتماد برای تصمیم گیری آگاهانه بسیار مهم است. به همین دلیل است که محصولات ما به گونه ای طراحی شده اند که با خطوط لوله پیش پردازش داده های شما کار کنند. چه در حال کار بر روی یک پروژه در مقیاس کوچک یا یک برنامه کاربردی سازمانی در مقیاس بزرگ باشید، محصولات nan ما می توانند به شما کمک کنند تا ارزش های 'nan' را کارآمدتر مدیریت کنید.
و صحبت از محصولات مرتبط، ما همچنین برخی از دستگاه های XPON ONU عالی را ارائه می دهیم. این محصولات شگفت انگیز را ببینید:
- LONDS 4GE VOIP CATV WIFI5 AC1200
- XPON ONU 4GE 1POTS WiFi6 AX3000 CATV USB3.0
- GPON ONU 4GE VOIP AC WIFI CATV USB2.0
این دستگاه ها برای ارائه اتصال با سرعت بالا و قابل اعتماد طراحی شده اند که برای جمع آوری و تجزیه و تحلیل داده ها ضروری است.
برای خرید با ما تماس بگیرید
اگر به محصولات nan ما یا هر یک از دستگاههای XPON ONU علاقه دارید، خوشحال میشویم از شما بشنویم. چه در مورد محصولات ما سؤالی داشته باشید، چه نیاز به یک نقل قول دارید یا می خواهید در مورد یک راه حل سفارشی بحث کنید، در تماس با ما دریغ نکنید. ما اینجا هستیم تا به شما کمک کنیم از داده های خود حداکثر استفاده را ببرید و اطمینان حاصل کنید که خطوط لوله پیش پردازش داده شما به خوبی اجرا می شود.
مراجع
- VanderPlas, J. (2016). کتاب راهنمای علوم داده پایتون: ابزارهای ضروری برای کار با داده ها. رسانه اوریلی
- مک کینی، دبلیو (2012). پایتون برای تجزیه و تحلیل داده ها: جدال داده ها با پانداها، NumPy و IPython. رسانه اوریلی
