چگونه مقادیر «نان» را در خط لوله پیش‌پردازش داده مدیریت کنیم؟ - وبلاگ

سلام! به‌عنوان تامین‌کننده nan با کیفیت بالا (که یک اصطلاح معمولی نیست، اما اجازه دهید آن را برای این وبلاگ بنویسیم)، من سهم من از خطوط لوله پیش پردازش داده‌ها و مقادیر مزاحم «nan» را که اغلب ظاهر می‌شوند، دیده‌ام. بنابراین، در این وبلاگ، من به شما آموزش می‌دهم که چگونه با این ارزش‌های «نان» مانند یک حرفه‌ای رفتار کنید.

ابتدا بیایید بفهمیم که ارزش‌های «نان» چیست. "Nan" مخفف "Not a Number" است. این یک مقدار ممیز شناور ویژه است که نشان دهنده یک مقدار تعریف نشده یا غیرقابل نمایش در محاسبات عددی است. به دلایل مختلف می توانید این مقادیر 'nan' را در مجموعه داده ها پیدا کنید. ممکن است هنگام جمع‌آوری داده‌ها خطایی رخ داده باشد، مانند نقص سنسور یا فراموشی کاربر برای وارد کردن یک مقدار. یا شاید محاسبه ای وجود داشته باشد که منجر به یک عملیات نامعتبر شده است، مانند تقسیم بر صفر.

حال، چرا رسیدگی به مقادیر «نان» اینقدر مهم است؟ خب، بیشتر الگوریتم‌های یادگیری ماشین و ابزارهای تجزیه و تحلیل داده‌ها نمی‌توانند مقادیر «nan» را مدیریت کنند. آنها یا خطا می دهند یا نتایج نادرستی به شما می دهند. بنابراین، برخورد با مقادیر 'nan' یک گام مهم در خط لوله پیش پردازش داده است.

GPU-4GAC-V-R-1 XPON+4GE+1POTS+1USB3.0+CATV+AX3000 WIFI6 HGU ONU

1. شناسایی ارزش های 'نان'

اولین قدم در مدیریت مقادیر 'nan' شناسایی آنهاست. در پایتون، اگر از کتابخانه هایی مانند پانداها استفاده می کنید، بسیار آسان است. می توانید استفاده کنیدisnull()یااست ()روش ها به عنوان مثال:

وارد کردن پانداها به عنوان pd وارد کردن numpy به عنوان np داده = {'col1': [1, 2, np.nan, 4], 'col2': [5, np.nan, 7, 8]} df = pd.DataFrame(data) nan_mask = df.isnull() print(nan_mask)

این کد یک DataFrame با مقادیر «nan» ایجاد می کند و سپس یک ماسک بولی ایجاد می کند که نشان می دهد مقادیر «nan» کجا هستند.

2. حذف مقادیر 'nan'

یکی از ساده‌ترین راه‌ها برای مدیریت مقادیر 'nan' حذف آنهاست. در پانداها می توانید ازdrop()روش

clean_df = df.dropna() print(clean_df)

با این کار هر ردیفی که حاوی مقادیر 'nan' باشد حذف می شود. با این حال، این رویکرد دارای معایبی است. اگر مقادیر "nan" زیادی دارید، ممکن است در نهایت مقدار قابل توجهی از داده ها را از دست بدهید. و اگر مقادیر 'nan' به طور تصادفی توزیع نشده باشند، می توانید سوگیری را در مجموعه داده خود وارد کنید.

3. نقاشی "نان" ارزش ها

Imputation روش پیچیده تری برای مدیریت مقادیر "nan" است. به جای حذف نقاط داده با مقادیر 'nan'، آنها را با مقادیر تخمینی جایگزین می کنید.

میانگین / میانه / انتساب حالت

برای ستون های عددی، می توانید مقادیر 'nan' را با میانگین، میانه یا حالت ستون جایگزین کنید.

mean_col1 = df['col1'].mean() df['col1'] = df['col1'].fillna(mean_col1)

این کد مقادیر 'nan' در ستون 'col1' را با میانگین آن ستون جایگزین می کند. محاسبه میانگین سریع و آسان است، اما می تواند واریانس داده های شما را کاهش دهد. اگر داده‌های شما دارای مقادیر پرت باشد، میانه گزینه بهتری است، زیرا میانگین کمتر تحت تأثیر مقادیر شدید قرار می‌گیرد.

برای ستون های طبقه بندی شده، می توانید از حالت (متداول ترین مقدار) استفاده کنید.

mode_col2 = df['col2'].mode()[0] df['col2'] = df['col2'].fillna(mode_col2)

درون یابی

درون یابی روش دیگری برای نسبت دادن مقادیر 'nan' است، به ویژه برای داده های سری زمانی. پانداها یکinterpolate()روش

df = pd.DataFrame({'value': [1, np.nan, 3, 4, np.nan, 6]}) df['value'] = df['value'].interpolate() print(df)

این روش مقادیر گمشده را بر اساس مقادیر نقاط داده مجاور تخمین می زند.

4. استفاده از تکنیک های پیشرفته

همچنین تکنیک‌های پیشرفته‌تری برای مدیریت مقادیر «nan» وجود دارد، مانند استفاده از الگوریتم‌های یادگیری ماشین برای پیش‌بینی مقادیر از دست رفته. به عنوان مثال، می توانید از یک درخت تصمیم یا یک جنگل تصادفی برای پیش بینی مقادیر 'nan' بر اساس سایر ویژگی های مجموعه داده خود استفاده کنید.

محصولات ما و نحوه تناسب آنها

به عنوان یک تامین کننده نانو، من می دانم که داشتن داده های تمیز و قابل اعتماد برای تصمیم گیری آگاهانه بسیار مهم است. به همین دلیل است که محصولات ما به گونه ای طراحی شده اند که با خطوط لوله پیش پردازش داده های شما کار کنند. چه در حال کار بر روی یک پروژه در مقیاس کوچک یا یک برنامه کاربردی سازمانی در مقیاس بزرگ باشید، محصولات nan ما می توانند به شما کمک کنند تا ارزش های 'nan' را کارآمدتر مدیریت کنید.

و صحبت از محصولات مرتبط، ما همچنین برخی از دستگاه های XPON ONU عالی را ارائه می دهیم. این محصولات شگفت انگیز را ببینید:

این دستگاه ها برای ارائه اتصال با سرعت بالا و قابل اعتماد طراحی شده اند که برای جمع آوری و تجزیه و تحلیل داده ها ضروری است.

برای خرید با ما تماس بگیرید

اگر به محصولات nan ما یا هر یک از دستگاه‌های XPON ONU علاقه دارید، خوشحال می‌شویم از شما بشنویم. چه در مورد محصولات ما سؤالی داشته باشید، چه نیاز به یک نقل قول دارید یا می خواهید در مورد یک راه حل سفارشی بحث کنید، در تماس با ما دریغ نکنید. ما اینجا هستیم تا به شما کمک کنیم از داده های خود حداکثر استفاده را ببرید و اطمینان حاصل کنید که خطوط لوله پیش پردازش داده شما به خوبی اجرا می شود.

مراجع

VanderPlas, J. (2016). کتاب راهنمای علوم داده پایتون: ابزارهای ضروری برای کار با داده ها. رسانه اوریلی
مک کینی، دبلیو (2012). پایتون برای تجزیه و تحلیل داده ها: جدال داده ها با پانداها، NumPy و IPython. رسانه اوریلی