دیتا هارت

دیتا هارت

مرجع مجموعه داده ها و مجموعه مقالات فارسی در تمامی رشته ها

  • مجموعه داده  همشهری شامل ده هزار سند در ده گروه خبری فرمت اکسل
  • مجموعه داده  همشهری شامل ده هزار سند در ده گروه خبری فرمت اکسل
  • مجموعه داده  همشهری شامل ده هزار سند در ده گروه خبری فرمت اکسل
  • مجموعه داده  همشهری شامل ده هزار سند در ده گروه خبری فرمت اکسل
کد : 3564

مجموعه داده همشهری شامل ده هزار سند در ده گروه خبری فرمت اکسل

گروه : متن کاوی
قیمت : 49900 تومان

مجموعه داده همشهری مربوط به متن اخبار و گروه اخبار های منتشر شده در روزنامه همشهری مربوط به سال های 1375-1387 می باشد. یکی از مشکلاتی که محققین داخلی با این مجموعه داده داشته اند فرمت xml این دیتاست است. تیم فنی دیتاهارت برای اینکه این مجموعه داده برای انجام پردازش و ایجاد مدل های طبقه بندی آماده تر باشد آن را به فرمت اکسل تبدیل کرده است. در این فرمت دو ستون وجود دارد که یکی مربوط به متن خبر و دیگری برچسب گروه خبر می باشد. 

متن کاوی چیست؟

 مقالات فارسی برای یادگیری متن کاوی  

مقالات معتبر انگلیسی در مورد متن کاوی

در دیتاست همشهری نسخه یک،  166 هزار خبر به همراه گروه خبر وجود دارد این دیتاست در حالت اصلی بسیار بزرگ است و بسیاری از دانشجویان که به دنبال استفاده از آن برای پروژه های کلاسی هستند به دیتاست کوچکتر نیاز دارند در این دیتاست ده هزار سند این دیتاست عرضه شده است شامل هزار خبر در هر گروه خبری. در واقع در این دیتاست ده گروه خبری ارائه شده است. در این دیتاست در حدود چهار میلیون کلمه وجود دارد. 

این دیتاست در دو فرمت اکسل و سی اس وی csv برای محقق گرامی ارسال خواهد شد. 

مالکیت معنوی این دیتاست متعلق به مرکز تحقیقات مخابرات ایران می باشد. اگر در زمینه نحوه استفاده از این دیتاست برای تحقیقات خود ابهاماتی دارید می توانید از آکادمی داده مشاوره بگیرید.