مجموعه داده همشهری شامل ده هزار سند در ده گروه خبری فرمت اکسل
مجموعه داده همشهری مربوط به متن اخبار و گروه اخبار های منتشر شده در روزنامه همشهری مربوط به سال های 1375-1387 می باشد. یکی از مشکلاتی که محققین داخلی با این مجموعه داده داشته اند فرمت xml این دیتاست است. تیم فنی دیتاهارت برای اینکه این مجموعه داده برای انجام پردازش و ایجاد مدل های طبقه بندی آماده تر باشد آن را به فرمت اکسل تبدیل کرده است. در این فرمت دو ستون وجود دارد که یکی مربوط به متن خبر و دیگری برچسب گروه خبر می باشد.
مقالات فارسی برای یادگیری متن کاوی
مقالات معتبر انگلیسی در مورد متن کاوی
در دیتاست همشهری نسخه یک، 166 هزار خبر به همراه گروه خبر وجود دارد این دیتاست در حالت اصلی بسیار بزرگ است و بسیاری از دانشجویان که به دنبال استفاده از آن برای پروژه های کلاسی هستند به دیتاست کوچکتر نیاز دارند در این دیتاست ده هزار سند این دیتاست عرضه شده است شامل هزار خبر در هر گروه خبری. در واقع در این دیتاست ده گروه خبری ارائه شده است. در این دیتاست در حدود چهار میلیون کلمه وجود دارد.
این دیتاست در دو فرمت اکسل و سی اس وی csv برای محقق گرامی ارسال خواهد شد.
مالکیت معنوی این دیتاست متعلق به مرکز تحقیقات مخابرات ایران می باشد. اگر در زمینه نحوه استفاده از این دیتاست برای تحقیقات خود ابهاماتی دارید می توانید از آکادمی داده مشاوره بگیرید.