دیتا هارت

دیتا هارت

مرجع مجموعه داده ها و مجموعه مقالات فارسی در تمامی رشته ها

  • مجموعه داده همشهری شامل یک هزار سند در دو گروه خبری فرمت csv
کد : 3739

مجموعه داده همشهری شامل یک هزار سند در دو گروه خبری فرمت csv

گروه : متن کاوی
قیمت : 250000 تومان

مجموعه داده همشهری مربوط به متن اخبار و گروه اخبار های منتشر شده در روزنامه همشهری مربوط به سال های 1375-1387 می باشد. یکی از مشکلاتی که محققین داخلی با این مجموعه داده داشته اند فرمت xml این دیتاست است. تیم فنی دیتاهارت برای اینکه این مجموعه داده برای انجام پردازش و ایجاد مدل های طبقه بندی آماده تر باشد آن را به فرمت اکسل تبدیل کرده است. در این فرمت دو ستون وجود دارد که یکی مربوط به متن خبر و دیگری برچسب گروه خبر می باشد. 

متن کاوی چیست؟

بهترین منبع برای یادگیری متن کاوی

 مقالات فارسی برای یادگیری متن کاوی  

مقالات معتبر انگلیسی در مورد متن کاوی

مجموعه داده مناسب طبقه بندی متون فارسی(دیتاست همشهری)

در دیتاست همشهری نسخه یک،  166 هزار خبر به همراه گروه خبر وجود دارد این دیتاست در حالت اصلی بسیار بزرگ است و بسیاری از دانشجویان که به دنبال استفاده از آن برای پروژه های کلاسی هستند به دیتاست کوچکتر نیاز دارند در این دیتاست هزار سند این دیتاست عرضه شده است شامل پانصد خبر در هر گروه خبری شامل گروه ورزشی و اقتصادی. در واقع در این دیتاست دو گروه خبری ارائه شده است.

مالکیت معنوی این دیتاست متعلق به مرکز تحقیقات مخابرات ایران می باشد. اگر در زمینه نحوه استفاده از این دیتاست برای تحقیقات خود ابهاماتی دارید می توانید از آکادمی داده مشاوره بگیرید.