مجموعه داده پردازش شده پرسیکا ( دیتاست طبقه بندی متون خبری فارسی)
مجموعه داده پردازش شده پرسیکا برای طبقه بندی متون خبری فارسی توسط محققین داخلی عرضه شده است. این کورپوس شامل 11 هزار عنوان خبر می باشد که در 11 گروه برچسب گزاری شده اند. یکی از اشکالات این کورپوس عدم مناسب بودن برای پردازش توسط ابزارهای داده کاوی و متن کاوی بود. تیم دیتاهارت با پردازش بر روی این دیتاست توانست آن را به فرمت مود قبول این ابزارها از جمله فایل اکسل و CSV تبدیل کند. همان طور که در تصاویر مشخص است این مجموعه داده برای انجام تحقیقات متن کاوی و طبقه بندی متون فارسی آماده است. اگر در زمینه نحوه استفاده از این دیتاست برای تحقیقات خود ابهاماتی دارید می توانید از آکادمی داده مشاوره بگیرید. برای آگاهی از دیتاست های منتشر شده توسط دیتاهارت می توانید به کانال تلگرامی ما بپیوندید.
در لینک های زیر نمونه دیتاست گفته شده آورده شده است.
http://dataheart.ir/upload/public/122371503546015.xlsx
http://dataheart.ir/upload/public/20001503546059.csv
مقالات فارسی برای یادگیری متن کاوی