چگونه می توان درصد مقادیر "نان" را در یک مجموعه داده پیدا کرد؟

Jul 21, 2025

پیام بگذارید

لیلی ژائو
لیلی ژائو
من یک متخصص بازاریابی در Good Mind Electronics هستم ، جایی که من استراتژی هایی را برای ترویج محصولات خود در سطح جهان تدوین می کنم. نقش من شامل درک نیازهای مشتری و تهیه کمپین های بازاریابی قانع کننده است.

یافتن درصد مقادیر "نان" (نه یک عدد) در یک مجموعه داده یک گام مهم در پیش پردازش و تجزیه و تحلیل داده ها است. به عنوان تأمین کننده محصولات با کیفیت بالا مربوط به دستگاه های شبکه ، از جملهXpon 1ge 1ge 1ge voip cavt wifi44باxpon onu 1ge 3fe voip wifi4وتXpon onu 4GE WiFi5 AC1200، من اهمیت کار دقیق داده ها را در زمینه های مختلف درک می کنم. در این وبلاگ ، من برخی از روش های عملی را برای محاسبه درصد مقادیر "NAN" در یک مجموعه داده به اشتراک می گذارم.

درک اهمیت ارزشهای "نان"

قبل از غواصی به روشهای محاسبه ، درک این نکته ضروری است که چرا ارزش های "نان" اهمیت دارند. در تجزیه و تحلیل داده ها ، مقادیر "NAN" می تواند داده های گمشده ، خطاهای موجود در جمع آوری داده ها یا مقادیری را که کاربردی نیست ، نشان دهد. نادیده گرفتن این مقادیر می تواند منجر به نتایج نادرست آماری ، مدل های مغرضانه و پیش بینی های غیرقابل اعتماد شود. به عنوان مثال ، در یک مجموعه داده فروش ، مقادیر "نان" ممکن است نشانگر ارقام فروش از دست رفته برای محصولات خاص یا دوره زمانی باشد. اگر این مقادیر به درستی به حساب نیامده باشند ، تجزیه و تحلیل فروش کلی می تواند گمراه کننده باشد.

پیش نیازهای

برای محاسبه درصد مقادیر "نان" ، به یک مجموعه داده و یک زبان برنامه نویسی با قابلیت دستکاری داده ها نیاز دارید. پایتون به دلیل کتابخانه های گسترده خود مانند پاندا و نومپی یک انتخاب محبوب است. در اینجا یک مرحله - به - راهنما در مورد نحوه انجام این محاسبه با استفاده از پایتون آورده شده است.

مرحله 1: کتابخانه های لازم را وارد کنید

ابتدا باید کتابخانه های پاندا و Numpy را وارد کنید. پاندا برای دستکاری و تجزیه و تحلیل داده ها استفاده می شود ، در حالی که Numpy پشتیبانی از آرایه های بزرگ و چند بعدی و ماتریس ها را فراهم می کند.

واردات پاندا به عنوان PD واردات numpy به عنوان np

مرحله 2: مجموعه داده را بارگیری کنید

فرض کنید یک مجموعه داده در یک پرونده CSV دارید. شما می توانید آن را با استفاده ازread_csvعملکرد در پاندا.

data = pd.read_csv ('your_dataset.csv')

مرحله 3: تعداد کل مقادیر موجود در مجموعه داده را محاسبه کنید

برای محاسبه درصد مقادیر "نان" ، ابتدا باید تعداد کل مقادیر موجود در مجموعه داده را بدانید. شما می توانید ازاندازهویژگی DataFrame.

GPU-11GN-V-RGPU-13GN-V

total_values = data.ize

مرحله 4: تعداد مقادیر "نان" را محاسبه کنید

پاندا یک روش مناسب برای شمارش تعداد مقادیر "نان" در یک dataframe فراهم می کند. شما می توانید ازاو ()روش ایجاد ماسک بولی و سپس خلاصه کردن همهدرستمقادیر

nan_values = data.isna () جمع () جمع ().

مرحله 5: درصد مقادیر "نان" را محاسبه کنید

اکنون که تعداد کل مقادیر و تعداد مقادیر "نان" را دارید ، می توانید درصد را محاسبه کنید.

درصد_نو = (nan_values / total_values) * 100 چاپ (f "درصد مقادیر" نان "در مجموعه داده {درصد_nan} ٪")

دست زدن به ساختارهای مختلف داده

روش فوق برای داده های جدولی در یک PANDAS DataFrame به خوبی کار می کند. با این حال ، اگر با یک آرایه NUMPY کار می کنید ، روند کمی متفاوت است.

وارد کردن numpy به عنوان np # یک نمونه آرایه numpy آرایه = np.array ([1 ، np.nan ، 3 ، np.nan ، 5]) # تعداد کل عناصر را محاسبه کنید. (nan_elements / total_elements) * 100 چاپ (f "درصد مقادیر" نان "در آرایه numpy {درصد_nan_array} ٪"

تجسم مقادیر "نان"

تجسم می تواند درک بهتری از توزیع مقادیر "نان" در مجموعه داده ها فراهم کند. می توانید از کتابخانه هایی مانند Matplotlib یا Seaborn برای ایجاد خطاهای گرما یا نمودارهای نوار استفاده کنید.

وارد کردن Seaborn به عنوان sns واردات matplotlib.pyplot به عنوان plt # یک نقشه گرمای از مقادیر "nan" sns.heatmap (data.isna () ، cbar = false) plt.title ('توزیع مقادیر نان') plt.show ()

برخورد با درصد بالایی از ارزشهای "نان"

اگر درصد مقادیر "نان" زیاد است ، باید تصمیم بگیرید که چگونه آنها را اداره کنید. برخی از استراتژی های متداول عبارتند از:

  • از بین بردن ردیف یا ستون: اگر یک ردیف یا ستون تعداد زیادی از مقادیر "نان" را داشته باشد ، می توانید آن را حذف کنید. با این حال ، این رویکرد ممکن است منجر به از بین رفتن اطلاعات ارزشمند شود.
  • متصرف: می توانید مقادیر "نان" را با مقادیر مناسب مانند میانگین ، میانه یا حالت مقادیر غیر "نان" در همان ستون پر کنید.
# مقادیر "نان" را با میانگین داده ها وارد کنید.

پایان

محاسبه درصد مقادیر "نان" در یک مجموعه داده گام مهمی در تجزیه و تحلیل داده ها است. این به شما کمک می کند تا کیفیت داده های خود را درک کرده و تصمیم بگیرید که چگونه مقادیر از دست رفته را کنترل کنید. به عنوان تأمین کننده دستگاه های شبکه مانندXpon 1ge 1ge 1ge voip cavt wifi44باxpon onu 1ge 3fe voip wifi4وتXpon onu 4GE WiFi5 AC1200، ما اهمیت داده های دقیق را در بهینه سازی عملکرد شبکه و تصمیم گیری آگاهانه کسب و کار درک می کنیم.

اگر به محصولات ما علاقه مند هستید یا در زمینه مدیریت شبکه در مورد تجزیه و تحلیل داده ها سؤالی دارید ، برای تهیه و بحث های بیشتر با ما تماس بگیرید. ما اینجا هستیم تا بهترین راه حل ها را برای نیازهای شما در اختیار شما قرار دهیم.

منابع

  • مک کینی ، دبلیو. (2017). پایتون برای تجزیه و تحلیل داده ها: درگیری داده ها با پاندا ، Numpy و Ipython. اویرلی مدیا.
  • Vanderplas ، J. (2016). کتاب راهنمای علوم داده Python: ابزارهای اساسی برای کار با داده ها. اویرلی مدیا.
ارسال درخواست
با ما تماس بگیریداگر سوالی دارید

می توانید از طریق تلفن ، ایمیل یا فرم آنلاین در زیر با ما تماس بگیرید. متخصص ما به زودی با شما تماس خواهد گرفت.

اکنون تماس بگیرید!