تأثیر مقادیر "نان" در تجزیه و تحلیل رگرسیون داده ها چیست؟

من من به عنوان یک تأمین کننده نان ، من زانو بوده ام - در اعماق دنیای داده ها و تمام سؤالاتی که با آن همراه است. یکی از موضوعاتی که در گپ های من با تحلیلگران و محققان داده ها ظاهر می شود ، تأثیر ارزشهای "NAN" در تجزیه و تحلیل رگرسیون داده ها است. بنابراین ، بیایید به این حفر کنیم و ببینیم چه چیزی است.

اول از همه ، ارزش های "نان" چیست؟ "نان" مخفف "نه یک شماره" است. این یک مقدار ویژه است که برای نشان دادن داده های مفقود یا تعریف نشده در محاسبات عددی استفاده می شود. در یک مجموعه داده ، ممکن است به دلایل مختلف با مقادیر "نان" به پایان برسید. شاید خطایی در جمع آوری داده ها وجود داشته باشد ، مانند نقص سنسور که نمی تواند خواندن را ضبط کند. یا شاید برخی از داده ها عمداً خالی مانده باشند زیرا کاربردی نبود.

وقتی صحبت از تجزیه و تحلیل رگرسیون داده ها می شود ، مقادیر "نان" می توانند یک آچار واقعی را در آثار پرتاب کنند. تجزیه و تحلیل رگرسیون همه چیز در مورد یافتن روابط بین متغیرها است. شما در حال تلاش برای ساختن مدلی هستید که می تواند نتیجه ای را بر اساس یک یا چند متغیر ورودی پیش بینی کند. اما "نان" با این فرآیند زمان زیادی را خراب می کند.

یکی از فوری ترین تأثیرات این است که بیشتر الگوریتم های رگرسیون نمی توانند مقادیر "نان" را مستقیماً کنترل کنند. آنها برای کار با داده های عددی طراحی شده اند ، و "نان" فقط این لایحه را ندارد. بنابراین ، اگر سعی می کنید تجزیه و تحلیل رگرسیون را روی یک مجموعه داده با مقادیر "نان" اجرا کنید ، به احتمال زیاد خطایی خواهید داشت. به عنوان مثال ، الگوریتم های رگرسیون خطی به عملیات ماتریس متکی هستند. هنگامی که مقادیر "نان" در ماتریس داده وجود دارد ، این عملیات به درستی قابل انجام نیست زیرا "نان" از قوانین عادی حسابی پیروی نمی کند.

بیایید بگوییم شما در حال تجزیه و تحلیل یک مجموعه داده مربوط به عملکرد هستید4GE 1POTS AC WiFi USB3.0دستگاه ها شما متغیرهایی مانند استحکام سیگنال ، سرعت بارگیری و عمر باتری دارید. اگر مقادیر "نان" در ستون سرعت بارگیری وجود داشته باشد ، مدل رگرسیون قادر به محاسبه دقیق رابطه بین قدرت سیگنال و سرعت بارگیری نخواهد بود. این ممکن است به ضرایب نادرست در معادله رگرسیون منجر شود ، به این معنی که پیش بینی های شما ارزش زیادی نخواهد داشت.

مسئله دیگر این است که مقادیر "نان" می توانند نتایج تحلیل شما را کاهش دهند. حتی اگر بتوانید الگوریتم رگرسیون را با از بین بردن یا تحمیل مقادیر "نان" اجرا کنید ، ممکن است نتایج مغرضانه باشد. اگر به سادگی ردیف ها را با مقادیر "نان" حذف کنید ، اندازه مجموعه داده خود را کاهش می دهید. این می تواند منجر به از بین رفتن اطلاعات ارزشمند و افزایش واریانس تخمین های شما شود. به عنوان مثال ، اگر در حال مطالعه ویژگی های هستید4GE 2VOIP AC WiFi USB2.0دستگاه ها و شما ردیف هایی را با مقادیر "نان" در متغیر کیفیت تماس حذف می کنید ، ممکن است داده ها را از نوع خاصی از سناریوی استفاده بیرون بیاورید. این می تواند مدل رگرسیون شما را کمتر نماینده از وضعیت واقعی جهانی کند.

تحمیل یکی دیگر از رویکردهای متداول برای مقابله با ارزشهای "نان" است. شما می توانید مقادیر "نان" را با آماری مانند میانگین ، میانه یا حالت مقادیر غیر "نان" در همان ستون جایگزین کنید. اما این مشکلات خاص خود را دارد. به عنوان مثال ، عدم پذیرش با میانگین ، فرض می کند که مقادیر گمشده مشابه مقدار متوسط در مجموعه داده است. این ممکن است اصلاً اینگونه نباشد. اگر مقادیر "نان" در واقع از یک زیر گروه متفاوت در داخل داده ها باشد ، با استفاده از میانگین رابطه بین متغیرها را تحریف می کند.

بیایید نگاهی به یک مثال پیچیده تر بیندازیم. فرض کنید شما در حال انجام یک تحلیل رگرسیون چندگانه در مورد ویژگی هایIT 4GE 4GE CONDE CONDIP WFI6 AX3000دستگاه ها شما متغیرهایی مانند قیمت ، دامنه و تعداد دستگاه های متصل دارید. اگر مقادیر "نان" در متغیر قیمت وجود داشته باشد و آنها را با میانگین قیمت تحمیل کنید ، ممکن است در نهایت بیش از حد ارزیابی یا دست کم گرفتن تأثیر قیمت در تعداد دستگاه های متصل را انجام دهید. این می تواند به مدلی منجر شود که پیش بینی های نادرست در مورد رفتار مشتری ایجاد کند.

علاوه بر این موضوعات فنی ، ارزشهای "نان" نیز می توانند بر تفسیر نتایج رگرسیون شما تأثیر بگذارند. هنگامی که مقادیر "نان" را در مجموعه داده دارید ، درک این که ضرایب معادله رگرسیون به چه معنی است ، سخت تر می شود. به عنوان مثال ، اگر ضریب برای یک متغیر خاص خاموش به نظر برسد ، می تواند به دلیل وجود مقادیر "نان" باشد نه یک رابطه واقعی بین متغیرها.

بنابراین ، در مورد مقادیر "نان" در تجزیه و تحلیل رگرسیون داده ها چه کاری می توانید انجام دهید؟ خوب ، اولین قدم بررسی دقیق مجموعه داده های خود است. سعی کنید درک کنید که چرا مقادیر "نان" وجود دارد. اگر به دلیل خطای جمع آوری داده است ، ببینید که آیا می توانید آن را اصلاح کنید. اگر مقادیر واقعاً از دست رفته اند ، باید استراتژی مناسبی را برای رسیدگی به آنها انتخاب کنید.

یکی از گزینه ها استفاده از تکنیک های پیشرفته تر Imputation است. به جای استفاده از میانگین یا متوسط ، می توانید از روش هایی مانند چند ضلعی استفاده کنید. این شامل ایجاد چندین نسخه از مجموعه داده با مقادیر مختلف محرک برای مقادیر "نان" است. سپس ، تجزیه و تحلیل رگرسیون را بر روی هر نسخه اجرا می کنید و نتایج را ترکیب می کنید. این می تواند برآوردهای قابل اطمینان تری به شما بدهد.

رویکرد دیگر استفاده از الگوریتم های رگرسیون است که می توانند مقادیر گمشده را به صورت بومی کنترل کنند. برخی از الگوریتم های یادگیری ماشین ، مانند جنگل تصادفی ، می توانند بدون نیاز به ناهماهنگی صریح ، با مقادیر "نان" مقابله کنند. این الگوریتم ها می توانند داده ها را بر اساس مقادیر موجود تقسیم کرده و هنوز یک مدل مفید بسازند.

در نتیجه ، مقادیر "نان" یک چالش مهم در تجزیه و تحلیل رگرسیون داده ها است. آنها می توانند باعث ایجاد خطاها ، نتایج ناچیز شوند و تفسیر یافته های شما را دشوار می کنند. اما با رویکرد درست ، می توانید تأثیر آنها را به حداقل برسانید. من به عنوان یک تأمین کننده NAN ، می دانم که تجزیه و تحلیل دقیق داده ها چقدر مهم است. این که آیا شما به دنبال عملکرد دستگاه های شبکه یا هر نوع داده دیگری هستید ، برخورد با ارزش های "نان" به درستی برای تصمیم گیری های آگاهانه بسیار مهم است.

4Ge 1POTS AC WiFi USB3.0

اگر در بازار محصولات NAN هستید و می خواهید اطمینان حاصل کنید که تجزیه و تحلیل داده های شما در بالا است - درجه یک ، من دوست دارم گپ بزنم. ما می توانیم بحث کنیم که چگونه محصولات NAN ما می توانند در فرآیندهای جمع آوری و تجزیه و تحلیل داده های شما قرار بگیرند. برای شروع مکالمه در مورد نیازهای خاص خود و اینکه چگونه می توانیم با هم کار کنیم ، دسترسی پیدا کنید.

منابع

Hastie ، T. ، Tibshirani ، R. ، & Friedman ، J. (2009). عناصر یادگیری آماری: داده کاوی ، استنباط و پیش بینی. اسپرینگر
جیمز ، G. ، ویتن ، D. ، هاستی ، T. ، و Tibshirani ، R. (2013). مقدمه ای برای یادگیری آماری: با برنامه های کاربردی در R. Springer.

تأثیر مقادیر "نان" در تجزیه و تحلیل رگرسیون داده ها چیست؟

پست‌های محبوب وبلاگ

ارسال درخواست

با ما تماس بگیریداگر سوالی دارید