آیا می توان از مقادیر "نان" در مهندسی ویژگی های داده استفاده کرد؟

در حوزه علم داده و یادگیری ماشین ، رسیدگی به مقادیر گمشده ، که اغلب به عنوان "نان" (نه یک عدد) نشان داده می شود ، یک جنبه مهم مهندسی ویژگی های داده است. من به عنوان یک تأمین کننده متخصص در محصولات مرتبط با ارزش های "نان" ، من از اول دیدگاه ها و شیوه های متنوع پیرامون استفاده از آنها در این زمینه را مشاهده کرده ام. این پست وبلاگ با هدف بررسی اینکه آیا می توان از مقادیر "NAN" به طور مؤثر در مهندسی ویژگی های داده استفاده کرد ، به مزایا ، چالش ها و کاربردهای عملی استفاده کرد.

درک ارزشهای "نان"

قبل از بحث در مورد استفاده از آنها در مهندسی ویژگی ، درک ارزشهای "نان" ضروری است. در زبانهای برنامه نویسی مانند پایتون ، "نان" یک مقدار خاص شناور است که برای نشان دادن نتایج عددی نامشخص یا غیرقابل توصیف استفاده می شود. به عنوان مثال ، تقسیم صفر به صفر یا گرفتن ریشه مربع یک عدد منفی در زمینه ای که از اعداد پیچیده پشتیبانی نمی شود می تواند به مقدار "نان" منجر شود.

در یک مجموعه داده ، مقادیر "نان" به طور معمول داده های گمشده را نشان می دهد. این می تواند به دلایل مختلف مانند خطاهای ورود به داده ها ، نقص سنسور یا نظرسنجی های ناقص باشد. به طور سنتی ، ارزشهای "نان" به عنوان یک مزاحمت دیده می شوند که باید قبل از تجزیه و تحلیل بیشتر حذف یا منتسب شود. با این حال ، موقعیت هایی وجود دارد که این مقادیر می توانند اطلاعات ارزشمندی را به همراه داشته باشند.

مزایای احتمالی استفاده از مقادیر "نان" در مهندسی ویژگی

1. شناسایی الگوهای مفقود شدن

وجود یا عدم وجود مقادیر "نان" در یک مجموعه داده می تواند الگوهای اساسی را نشان دهد. به عنوان مثال ، اگر یک ویژگی خاص نسبت بالایی از مقادیر "نان" را در یک زیر مجموعه خاص از داده ها داشته باشد ، می تواند مشکلی در فرآیند جمع آوری داده ها برای آن زیر مجموعه نشان دهد. با ایجاد ویژگی های جدید بر اساس الگوهای مفقود ، ما به طور بالقوه می توانیم عملکرد مدل های یادگیری ماشین را بهبود بخشیم.

4GE AC WIFI 5

یک مجموعه داده از معاملات مشتری را در نظر بگیرید که برخی از مشتریان برای نمرات اعتباری خود مقادیر از دست داده اند. به جای اینکه این مقادیر را به سادگی تحمیل کنیم ، می توانیم یک ویژگی باینری ایجاد کنیم که نشان می دهد نمره اعتباری مشتری از دست رفته است یا خیر. این ویژگی جدید ممکن است اطلاعات مهمی را در مورد مشخصات ریسک مشتری ضبط کند ، زیرا مشتریانی که دارای نمرات اعتباری از دست رفته اند می توانند به احتمال زیاد در پرداخت خود پیش فرض کنند.

2. ترکیب عدم اطمینان

در بعضی موارد ، مقادیر "نان" می توانند عدم اطمینان واقعی در داده ها را نشان دهند. به عنوان مثال ، در یک مجموعه داده سری زمانی ، یک مقدار "نان" در یک مرحله زمانی خاص می تواند نشان دهد که اندازه گیری در دسترس نبوده یا غیرقابل اعتماد است. با نگه داشتن این مقادیر "نان" در مجموعه داده ها و استفاده از الگوریتم های مناسب که می توانند داده های گمشده را کنترل کنند ، می توانیم این عدم اطمینان را در مدل های خود بگنجانیم.

یک رویکرد استفاده از مدلهای احتمالی است که می تواند توزیع احتمال مقادیر گمشده را تخمین بزند. این مدل ها سپس می توانند چندین ضربه احتمالی ایجاد کنند و به ما امکان می دهند عدم اطمینان در داده ها را به خود اختصاص دهیم. این می تواند منجر به پیش بینی های قوی تر و دقیق تر شود ، به خصوص در شرایطی که داده های گمشده به طور تصادفی از بین نرود.

3. انتخاب ویژگی و کاهش ابعاد

حضور مقادیر "نان" نیز می تواند به عنوان معیار انتخاب ویژگی استفاده شود. ویژگی هایی با تعداد زیادی از مقادیر "نان" ممکن است کمتر آموزنده باشد یا کار با آن دشوارتر باشد. با از بین بردن این ویژگی ها یا اختصاص دادن وزن آنها ، می توانیم ابعاد مجموعه داده را کاهش داده و به طور بالقوه عملکرد مدل های خود را بهبود بخشیم.

به عنوان مثال ، در یک مجموعه داده با ابعاد بالا با صدها ویژگی ، برخی از ویژگی ها ممکن است بخش قابل توجهی از مقادیر "نان" داشته باشند. با شناسایی این ویژگی ها و حذف آنها از مجموعه داده ، می توانیم روی ویژگی های آموزنده تر تمرکز کنیم و پیچیدگی محاسباتی مدل های خود را کاهش دهیم.

چالش های استفاده از مقادیر "نان" در مهندسی ویژگی

1. سازگاری با الگوریتم های یادگیری ماشین

همه الگوریتم های یادگیری ماشین نمی توانند مقادیر "نان" را مستقیماً اداره کنند. بسیاری از الگوریتم ها ، مانند رگرسیون خطی ، درختان تصمیم گیری و شبکه های عصبی ، نیاز به تکمیل داده های ورودی دارند. بنابراین ، اگر می خواهیم از این الگوریتم ها استفاده کنیم ، باید داده ها را برای حذف یا تحمیل مقادیر "نان" از پیش پردازش کنیم.

با این حال ، برخی از الگوریتم ها ، مانند جنگل های تصادفی و دستگاه های تقویت شیب ، می توانند داده های مفقود شده را تا حدی کنترل کنند. این الگوریتم ها می توانند داده ها را بر اساس حضور یا عدم وجود مقادیر "NAN" تقسیم کنند و به آنها امکان می دهند اطلاعات موجود در الگوهای مفقود را ضبط کنند.

2. تعصب تحقیر

هنگام مقادیر "نان" ، خطر معرفی تعصب به مجموعه داده وجود دارد. انتخاب روش imputation می تواند تأثیر بسزایی در عملکرد مدل های یادگیری ماشین داشته باشد. به عنوان مثال ، اگر از میانگین استفاده برای پر کردن مقادیر گمشده استفاده کنیم ، فرض می کنیم که مقادیر گمشده مشابه میانگین مقادیر مشاهده شده است. این ممکن است در همه موارد صحیح نباشد ، به خصوص اگر داده های گمشده به طور تصادفی کاملاً از بین نرود.

برای کاهش این خطر ، می توانیم از روشهای پیچیده تر استفاده کنیم ، مانند ضرب و شتم متعدد یا عملکرد مبتنی بر مدل. این روشها می توانند چندین ضربه احتمالی را بر اساس داده های مشاهده شده و توزیع اساسی مقادیر گمشده ایجاد کنند و تعصب معرفی شده توسط فرآیند تحریک را کاهش دهند.

3. نشت داده ها

هنگام استفاده از مقادیر "نان" در مهندسی ویژگی ، خطر نشت داده ها وجود دارد. نشت داده ها زمانی اتفاق می افتد که اطلاعات حاصل از مجموعه آزمون سهواً در فرآیند آموزش استفاده می شود و منجر به برآورد عملکرد بیش از حد می شود. به عنوان مثال ، اگر مقادیر "نان" را در مجموعه آموزش با استفاده از اطلاعات موجود در مجموعه آزمون تحمیل کنیم ، مدل ممکن است یاد بگیرد که به این اطلاعات اعتماد کند و در داده های جدید ضعیف عمل کند.

برای جلوگیری از نشت داده ها ، باید اطمینان حاصل کنیم که روند جابجایی به طور جداگانه در مجموعه های آموزش و آزمایش انجام می شود. ما می توانیم از مجموعه آموزش استفاده کنیم تا پارامترهای روش impitation را تخمین بزنیم و سپس بدون استفاده از اطلاعاتی از مجموعه آزمون ، همان روش را در مجموعه آزمون اعمال کنیم.

کاربردهای عملی استفاده از مقادیر "نان" در مهندسی ویژگی

1. مراقبت های بهداشتی

در مراقبت های بهداشتی ، از مقادیر "نان" می توان برای نشان دادن سوابق پزشکی مفقود شده یا نتایج آزمایش استفاده کرد. با ایجاد ویژگی های جدید بر اساس الگوهای مفقود ، به طور بالقوه می توانیم بیماران را در معرض خطر بالای بیماری های خاص شناسایی کنیم. به عنوان مثال ، اگر بیمار برای یک نشانگر نشانگر خاص از نظر ارزش گمشده ای داشته باشد ، می تواند نشان دهد که بیمار آزمایش لازم را انجام نداده است. این اطلاعات می تواند برای اولویت بندی آزمایش و درمان بیشتر استفاده شود.

2. امور مالی

در امور مالی ، از ارزشهای "نان" می توان برای نشان دادن داده های مالی مفقود شده ، مانند قیمت سهام یا رتبه بندی اعتباری استفاده کرد. با درج اطلاعات مفقود در مدل های خود ، ما به طور بالقوه می توانیم صحت ارزیابی ریسک و تصمیمات سرمایه گذاری خود را بهبود بخشیم. به عنوان مثال ، اگر یک شرکت برای سود خود برای هر سهم از ارزش مفقود شده برخوردار باشد ، می تواند نشان دهد که این شرکت با مشکلات مالی روبرو است. این اطلاعات می تواند برای تنظیم استراتژی سرمایه گذاری ما بر این اساس استفاده شود.

3. اینترنت چیزها (IoT)

در برنامه های IoT ، از مقادیر "نان" می توان برای نشان دادن قرائت سنسور گمشده استفاده کرد. با استفاده از الگوریتم های مناسب که می توانند داده های گمشده را کنترل کنند ، می توانیم از قابلیت اطمینان و صحت سیستم های IoT خود اطمینان حاصل کنیم. به عنوان مثال ، در یک سیستم خانگی هوشمند ، اگر یک سنسور مقدار از دست رفته برای دما داشته باشد ، می تواند نشان دهد که سنسور نقص دارد. از این اطلاعات می توان برای ایجاد هشدار و برنامه ریزی برای نگهداری استفاده کرد.

پایان

در نتیجه ، مقادیر "نان" را می توان به طور مؤثر در مهندسی ویژگی های داده استفاده کرد ، اما نیاز به بررسی دقیق مزایا و چالش های بالقوه دارد. با شناسایی الگوهای مفقودیت ، ترکیب عدم اطمینان و استفاده از الگوریتم های مناسب و روشهای متمایز ، می توانیم اطلاعات موجود در مقادیر "نان" را برای بهبود عملکرد مدل های یادگیری ماشین ما افزایش دهیم.

ما به عنوان تأمین کننده محصولات مرتبط با مقادیر "نان" ، ما طیف وسیعی از راه حل ها را برای کمک به شما در کنترل داده های مفقود شده در مجموعه داده های خود ارائه می دهیم. محصولات ما شامل ابزارهای پیش پردازش داده ، الگوریتم های Imputation و مدل های یادگیری ماشین هستند که می توانند داده های مفقود شده را کنترل کنند. اگر شما علاقه مند به کسب اطلاعات بیشتر در مورد چگونگی کمک محصولات ما در نیازهای مهندسی ویژگی های داده خود هستید ، لطفاً برای گفتگو در مورد نیازهای خود با ما تماس بگیرید.

وقتی صحبت از محصولات مرتبط می شود ، ممکن است به موارد زیر نیز علاقه مند باشید:

منابع

Little ، RJA ، & Rubin ، DB (2019). تجزیه و تحلیل آماری با داده های گمشده. ویلی
Van Buuren ، S. (2018). انعطاف پذیری انعطاف پذیر داده های گمشده. چاپمن و هال/CRC.
Hastie ، T. ، Tibshirani ، R. ، & Friedman ، J. (2009). عناصر یادگیری آماری: داده کاوی ، استنباط و پیش بینی. اسپرینگر