دیتا هارت

دیتا هارت

مرجع مجموعه داده ها و مجموعه مقالات فارسی در تمامی رشته ها

  • مجموعه داده KDD 99

در دنیای امروز، کامپیوتر و شبکه‌های کامپیوتری متصل به اینترنت نقش عمده‌ای در ارتباطات و انتقال اطلاعات ایفا می‌کنند. در این بین افراد سودجو با دسترسی به اطلاعات مهم مراکز خاص یا اطلاعات افراد دیگر و با قصد اعمال نفوذ یا اعمال فشار و یا حتی به هم ریختن نظم سیستم‌ها، عمل تجاوز به سیستم‌های کامپیوتری را در پیش گرفته‌اندHacker،Cracker،Intruder کلماتی هستند که امروزه کم و بیش در محافل کامپیوتری مطرح هستند و اقدام به نفوذ به سیستم‌های دیگر کرده و امنیت آن‌ها را به خطر می‌اندازد. بنابراین لزوم حفظ امنیت اطلاعاتی و حفظ کارآیی در شبکه‌های کامپیوتری که با دنیای خارج ارتباط دارند، کاملأ محسوس است. از آنجا که از نظر تکنیکی ایجاد سیستم‌های کامپیوتری (سخت‌افزار و نرم‌افزار) بدون نقاط ضعف و شکست امنیتی عملأ غیرممکن است، تشخیص نفوذ در تحقیقات سیستم‌های کامپیوتری با اهمیت خاصی دنبال می‌شود. برای همین مجموعه داده‌ای در این حوزه برای عزیزان تدارک دیده شده است.

داده کاوی چیست؟ 

جایگاه مجموعه داده(دیتاست) در داده کاوی 

داده کاوی در حوزه سلامت

مقالات فارسی برای یادگیری داده کاوی

یکی از مجموعه داده‌هایی که در این حوزه بسیار زیاد مورد استفاده قرار گرفته است مجموعه داده KDD99 است که در سومین دوره مسابقات کشف اطلاعات به اشتراک گذاشته شد. این دیتاست شامل تعداد زیادی اتصالات نرمال و حملات است که در محیطی شبیه سازی شده از یک  شبکه محلی نیروی هوایی آمریکا در مدت ۹ هفته بدست آمده است

هر سطر این دیتاست شامل ۴۲ پارامتر است که می توان به موارد زیر اشاره کرد:

  •  نوع حمله به شبکه
  • تعداد سرور هایی که درخواست ها از ان ها ارسال می شود
  •  نرخ تفاوت سرورها
  •  اندازه بسته
  •  نوع پروتکل
  •  بازه زمانی اتصال

از جمله حملاتی که در این دیتاست استفاده شده است عبارتند از :

  • حمله منع سرویس یا DOS
  • حملات کاربر به ریشه یا U2R
  • حملات از راه دور یا R2L
  • حملات پویش پورت یا probing

مجموعه داده‌ای که بر روی سامانه قرار گرفته است شامل ۴ فایل اصلی است که دو فایل حاوی مجموعه آموزش و تست تمام داده تولید شده است و دو فایل دیگر حاوی مجموعه آموزش و تست ۱۰ درصد از کل دیتاست است.

نام ویژگی توضیحات
ساختار فایل Text
تعداد رکورد چهار بخش به مجموعه ۸ میلیون رکورد
زبان انگلیسی
حجم فایل ۳۰ مگابایت

مجموعه داده با نرم ++ Note Pad باز می شود.

نمونه­‌هایی از قابلیت­‌های استفاده­‌ی دیتاست:

  • تشخیص حملات شبکه
  • تشخیص نفوذ به شبکه