دیتا هارت

دیتا هارت

مرجع مجموعه داده ها و مجموعه مقالات فارسی در تمامی رشته ها

  • مجموعه داده ایمیل های انگلیسی برای ایجاد مدل های شناسایی هرزنامه
  • مجموعه داده ایمیل های انگلیسی برای ایجاد مدل های شناسایی هرزنامه
کد : 3503

مجموعه داده ایمیل های انگلیسی برای ایجاد مدل های شناسایی هرزنامه

قیمت : 26900 تومان

این مجموعه داده حاوی تعداد 4661 پیام ایمیلی بوده که 1113 حدود 33 درصد از آنها هرزنامه و 2711 حدود  66 درصد غیر هرزنامه هستند. این ایمیلها دارای 51 ویژگی میباشد که در کل از پیامهای ایمیلی اصلی، 57 ویژگی متفاوت استخراج و محاسبه شده است. ویژگی آخر نشان می دهد که آیا ایمیل ناخواسته یعنی هرزنامه 1 و یا ایمیل قانونی، یعنی غیر هرزنامه 0 است. بسیاری از ویژگی ها نشان میدهد که آیا یک کلمه و یا کاراکتر خاص اغلب در ایمیل وجود دارد یا خیر؟ اولین 41 ویژگی، دلالت بر فراوانیهای کلمات کلیدی خاص دارد یعنی درصدی از کلمات یا واژه که در پست الکترونیکی با یک کلمه یا واژه خاص مطابقت دارد که = 166 * تعداد دفعاتی که کلمه یا واژه در ایمیل ظاهر میشود / تعداد کل کلمات در ایمیل و 6 ویژگی دیگر دلالت بر فراوانی های کاراکتر دارد. یعنی درصدی از کاراکترها در ایمیل که با کاراکتر خاصی مطابقت دارد که = 166 * تعداد رخدادهای کل کاراکتر در ایمیل / تعداد کل کلمات در ایمیل. آخرین ویژگی حاوی اطلاعاتی در مورد مجموعه داده هاست. مانند: طول طولانی ترین توالی دنبالهی بی وقفه پیوسته از حروف بزرگ، میانگین طول توالیهای دنباله های پیوستهای از حروف بزرگ و مجموع طول توالی های دنباله ای های پیوسته از حروف بزرگ یعنی تعداد کل حروف بزرگ در ایمیل. اگر در زمینه نحوه استفاده از این دیتاست برای تحقیقات خود ابهاماتی دارید می توانید از آکادمی داده مشاوره بگیرید. برای آگاهی از دیتاست های منتشر شده توسط دیتاهارت می توانید به کانال تلگرامی ما بپیوندید.