دیتا هارت

دیتا هارت

مرجع مجموعه داده ها در تمامی رشته ها

  • مجموعه داده تشخیص اسپم در ایمیل های فارسی
  • مجموعه داده تشخیص اسپم در ایمیل های فارسی
  • مجموعه داده تشخیص اسپم در ایمیل های فارسی
کد : 3395

مجموعه داده تشخیص اسپم در ایمیل های فارسی

گروه : متن کاوی
قیمت : 49000 تومان

تشخیص اسپم یکی از حوزه‌های مطالعاتی متن‌کاوی است که بسیار موردتوجه است در این حوزه مطالعاتی به دنبال شناسایی و طبقه‌بندی اسپم‌ها هستیم. در فارسی به اسپم‌های ایمیل هرزنامه نیز گفته می‌شود. اسپم به پیام ناخواسته اطلاق می‌شود به‌طور مثال ایمیل‌های ناخواسته که از طرف شرکت‌های تولیدکننده به‌منظور تبلیغ ارسال می‌شود یک نوع اسپم هستند. این حوزه مطالعاتی دارای سابقه طولانی در حوزه متن‌کاوی انگلیسی است ولی در زبان فارسی کارهای مهمی انجام‌نشده است در این مجموعه داده مورداستفاده از ایمیل‌های فارسی عادی و اسپم تشکیل‌شده است 500 ایمیل عادی و 500 ایمیل اسپم دار را شامل می‌شود. این ایمیل‌ها به زبان فارسی نوشته‌شده‌اند. در حوزه زبان فارسی جای خالی مجموعه داده اسپم های فارسی به شدت احساس می شود. امید است این مجموعه داده بتواند این نقصان را پر کند. اگر در زمینه نحوه استفاده از این دیتاست برای تحقیقات خود ابهاماتی دارید می توانید از آکادمی داده مشاوره بگیرید.