دیتاست نام های محل در زبان فارسی
دیتاست هستان شناسی فارسی برای لغات هم معنا
مجموعه داده فرهنگ لغات فارسی
دیوان لسان الغیب خواجه حافظ شیرازی
مجموعه داده متن قرآن کریم در فرمت های مختلف
مجموعه داده کلمات کلیدی پایان نامه های فارسی
مجموعه داده کلمات کلیدی اخبار فارسی
نام استارتاپ های ایرانی- شامل حدود هزار استارتاپ
نام استان، شهر، بخش و دهستانهای ایران
بیش از سی مقاله فارسی در مورد تشخیص اسپم
صد و پنجاه هزار کلمه فارسی
مجموعه داده متون اشعار شعرای فارسی(48 شاعر)
مجموعه داده همشهری شامل یک هزار سند در دو گروه خبری فرمت csv
متن انگلیسی شاهنامه فردوسی در فرمت تکست
متن فارسی شاهنامه فردوسی در فرمت تکست
مجموعه داده نویسنده و متن نوشته
مجموعه سخنرانی های تد تالک
مجموعه داده مناسب برای طبقه بندی متون انگلیسی
مجموعه داده نام کنفرانس و عنوان مقالات منتشر شده در آن
لیست کلماتی که در فارسی اشتباه نوشته می شوند
مجموعه داده توییت های فارسی در گروههای فرهنگی، سیاسی، اقتصادی و ورزشی
مجموعه داده  همشهری شامل ده هزار سند در ده گروه خبری فرمت اکسل
مجموعه داده  همشهری شامل ده هزار سند در فرمت اکسل و csv
نسخه جدید(1.7) فریم نت
لیست افعال فارسی
دیتاست هزار خبر فارسی با مشخصات هر خبر
مجموعه داده اخبار و نظرات اخبار در وب سایت الف
مجموعه داده  کامل همشهری نسخه 1 شامل 166 هزار سند در فرمت اکسل و csv
مجموعه داده ایست واژه فارسی دیتاست همشهری
مجموعه داده پردازش شده پرسیکا ( دیتاست طبقه بندی متون خبری فارسی)
مجموعه داده اسپم مربوط به پیامک های انگلیسی
مجموعه داده اخبار انگلیسی بی بی سی
مقالات نخستین کنفرانس بین المللی پردازش خط و زبان فارسی
مجموعه داده مقالات فارسی و کلمات کلیدی هر مقاله
لیست کلمات ایست واژه فارسی
مجموعه داده مقالات پذیرفته شده در کنفرانس AAAI
مجموعه داده متن کاوی رویترز
مجموعه داده متن فارسی برای پروژه های تشخیص زبان متن
مجموعه داده متن انگلیسی برای پروژه های تشخیص زبان متن
مجموعه داده تشخیص اسپم در ایمیل های فارسی
مجموعه داده رزومه اساتید دانشگاه بابل
مجموعه داده تشخیص اسپم در ایمیل ها
مجموعه داده اخبار فارسی منتشر شده در خبرگزاری های ایران
دیتاست (مجموعه داده) ایمیل های هیلاری کلینتون