دادهکاوی یک فرایندی است که مقداری دادهها را تحلیل میکند و سعی میکند اطلاعات پنهان در این دادهها را پیداکرده و از آن در بهبود موارد مرتبط با آن استفاده کند . صاحبان صنایع و شرکتها به دنبال این اطلاعات پنهان هستند تا تجارت خود را پرسودتر کنند بنابراین از حوزههای دادهکاوی بسیاری استفاده میکنند که گستره بسیار وسیعی دارد.
جایگاه مجموعه داده(دیتاست) در داده کاوی
مقالات فارسی برای یادگیری داده کاوی
این دیتاست به دنبال ارائه رابطه ویژگی یک فرد و میزان درآمد آن در آمریکا هستیم. این مجموعه داده در دو فرمت اکسل و csv عرضه شده است. اگر در زمینه نحوه استفاده از این دیتاست برای تحقیقات خود ابهاماتی دارید می توانید از آکادمی داده مشاوره بگیرید. برای آگاهی از دیتاست های منتشر شده توسط دیتاهارت می توانید به کانال تلگرامی ما بپیوندید.
بر اساس دیتاست ایجاد شده بین ویژگی یک فرد که در ادامه می آید و درآمد او رابطه ای وجود دارد.
1- سن
2-وضعیت شغلی
3- وزن شخص
4-میزان تحصیلات
5-وضعیت تاهل
6-سازمانی که در آن شاغل است
7-وضعیت رابطه شخصی
8-نژاد
9-جنسیت
10-درآمد از سرمایه گزاری
11-ضرر ناشی از سرمایه گزاری
12-تعداد ساعات کار در هفته
13-کشوری که شخص از آن به آمریکا آمده است.
14- میزان درآمد فرد بیشتر از 50 هزار دلار یا کمتر ( مقدار هدف که باید توسط الگوریتم پیش بینی شود)
در این دیتاست بر اساس ویژگی گفته شده میزان درآمد ارائه شده است. در این مجموعه داده دو گروه ارائه شده است گروهی که در آمد بالای 50 هزار دلار دارد و گروهی که درآمد کمتر از 50 هزار دلار دارد. در واقع داده خام ویژگی های ذکر شده و دانشی که تو سط الگوریتم های ماشین یادگیری استخراج می شود میزان درآمد فرد است.