تصویر کاوی یکی از پر چالش ترین علوم داده کاوی است در این حوزه به دنبال شناسایی الگوری پنهان در تصاویر هستند. مجموعه ارقام دستنویس هدی که اولین مجموعهی بزرگ ارقام دستنویس فارسی است، مشتمل بر ۱۰۲۳۵۳ نمونه دستنوشته سیاه سفید است. این مجموعه طی انجام یک پروژهی کارشناسی ارشد درباره بازشناسی فرمهای دستنویس تهیه شده است. داده های این مجموعه از حدود ۱۲۰۰۰ فرم ثبت نام آزمون سراسری کارشناسی ارشد سال ۱۳۸۴ و آزمون کاردانی پیوسته دانشگاه جامع علمی کاربردی سال ۱۳۸۳ استخراج شده است. خصوصیات این مجموعه داده به شرح زیر است:
درجه تفکیک نمونهها: ۲۰۰ نقطه بر اینچ
تعداد کل نمونهها: ۱۰۲۳۵۲ نمونه
تعداد نمونههای آموزش: ۶۰۰۰ نمونه از هر کلاس
تعداد نمونههای آزمایش: ۲۰۰۰ نمونه از هر کلاس
سایر نمونهها: ۲۲۳۵۲ نمونه
"بازشناسی ارقام و حروف دستنویس در فرمهای آزمون سراسری”، پایان نامهی کارشناسی ارشد، حسین خسروی، دانشگاه تربیت مدرس
مقالات فارسی برای یادگیری متن کاوی
مقالات معتبر انگلیسی در مورد متن کاوی
مجموعه داده مناسب طبقه بندی متون فارسی(دیتاست همشهری)
اگر در زمینه نحوه استفاده از این دیتاست برای تحقیقات خود ابهاماتی دارید می توانید از آکادمی داده مشاوره بگیرید. برای آگاهی از دیتاست های منتشر شده توسط دیتاهارت می توانید به کانال تلگرامی ما بپیوندید.