دیتا هارت

دیتا هارت

مرجع مجموعه داده ها و مجموعه مقالات فارسی در تمامی رشته ها

  • مجموعه داده  همشهری شامل ده هزار سند در فرمت اکسل و csv
کد : 3562

مجموعه داده همشهری شامل ده هزار سند در فرمت اکسل و csv

Hamshahri's dataset

گروه : متن کاوی
قیمت : 49900 تومان

مجموعه داده همشهری مربوط به متن اخبار و گروه اخبار های منتشر شده در روزنامه همشهری مربوط به سال های 1375-1387 می باشد. یکی از مشکلاتی که محققین داخلی با این مجموعه داده داشته اند فرمت xml این دیتاست است. تیم فنی دیتاهارت برای اینکه این مجموعه داده برای انجام پردازش و ایجاد مدل های طبقه بندی آماده تر باشد آن را به فرمت اکسل تبدیل کرده است. در این فرمت دو ستون وجود دارد که یکی مربوط به متن خبر و دیگری برچسب گروه خبر می باشد. در کنار فرمت اکسل، فرمت csv نیز در ارائه می گردد.

متن کاوی چیست؟

 مقالات فارسی برای یادگیری متن کاوی  

مقالات معتبر انگلیسی در مورد متن کاوی

در دیتاست همشهری نسخه یک،  166 هزار خبر به همراه گروه خبر وجود دارد این دیتاست در حالت اصلی بسیار بزرگ است و بسیاری از دانشجویان که به دنبال استفاده از آن برای پروژه های کلاسی هستند به دیتاست کوچکتر نیاز دارند در این دیتاست ده هزار سند این دیتاست عرضه شده است. پنج هزار خبر اقتصادی و پنج هزار خبر ورزشی در مجموعه ده هزار خبر در این دیتاست عرضه شده است. 

این دیتاست در دو فرمت اکسل و سی اس وی csv برای محقق گرامی ارسال خواهد شد.

مالکیت معنوی این دیتاست متعلق به مرکز تحقیقات مخابرات ایران می باشد. اگر در زمینه نحوه استفاده از این دیتاست برای تحقیقات خود ابهاماتی دارید می توانید از آکادمی داده مشاوره بگیرید.