در این بخش مجموعه داده تشخیص اسپم در ایمیل های فارسی ارائه شده است.
تشخیص اسپم
تشخیص اسپم یکی از حوزههای مطالعاتی متنکاوی است که بسیار موردتوجه است در این حوزه مطالعاتی به دنبال شناسایی و طبقهبندی اسپمها هستیم. در فارسی به اسپمهای ایمیل هرزنامه نیز گفته میشود. اسپم به پیام ناخواسته اطلاق میشود بهطور مثال ایمیلهای ناخواسته که از طرف شرکتهای تولیدکننده بهمنظور تبلیغ ارسال میشود یک نوع اسپم هستند. این حوزه مطالعاتی دارای سابقه طولانی در حوزه متنکاوی انگلیسی است ولی در زبان فارسی کارهای مهمی انجامنشده است.
مشخصات دیتاست تشخیص اسپم در ایمیل های فارسی
در این مجموعه داده مورداستفاده از ایمیلهای فارسی عادی و اسپم تشکیلشده است 500 ایمیل عادی و 500 ایمیل اسپم دار را شامل میشود. این ایمیلها به زبان فارسی نوشتهشدهاند.
در حوزه زبان فارسی جای خالی مجموعه داده اسپم های فارسی به شدت احساس می شود. امید است این مجموعه داده بتواند این نقصان را پر کند. اگر در زمینه نحوه استفاده از این دیتاست برای تحقیقات خود ابهاماتی دارید می توانید از آکادمی داده مشاوره بگیرید.
برای آگاهی از دیتاست ها و مجموعه مقالات فارسی منتشر شده توسط دیتاهارت می توانید به کانال تلگرامی ما بپیوندید.
بیش از سی مقاله فارسی در زمینه تشخیص اسپم
مقالات فارسی و انگلیسی در مورد یادگیری عمیق