دیتا هارت

دیتا هارت

مرجع مجموعه داده ها در تمامی رشته ها

  • مجموعه داده موجودیت های  نامدار در زبان فارسی
  • مجموعه داده موجودیت های  نامدار در زبان فارسی
  • مجموعه داده موجودیت های  نامدار در زبان فارسی

تشخیص موجودیت‌های نامدار یکی از موضوعات پردازش زبان طبیعی است که نیاز به پیکره دارد. این پیکره  شامل 300 هزار کلمه ( برگرفته از پیکرهٔ بی‌جن‌خان) است و سه ردهٔ شخص (مثال: سید علی قاضی)، مکان (مثال: پارک آب و آتش) و سازمان (مثال: مجلس شورای اسلامی) در آن برچسب خورده است (با فرمت IOB). 

عملیات برچسب زنی توسط برچسب زن انسانی صورت گرفته است و بازبینی نهایی برچسب ها توسط تیم خبره انجام شده است. 

این مجموعه داده می تواند برای متخصصین پردازش زبان طبیعی بسیار کاربرد داشته باشد. استخراج موجودیت ها یکی از مراحل بسیاری از روش های متن کاوی و پردازش زبان طبیعی است. اگر در زمینه نحوه استفاده از این دیتاست برای تحقیقات خود ابهاماتی دارید می توانید از آکادمی داده مشاوره بگیرید. برای آگاهی از دیتاست های منتشر شده توسط دیتاهارت می توانید به کانال تلگرامی ما بپیوندید. 

از طریق لینک زیر می توانید نمونه ای شامل 1500 کلمه را مشاهده بفرمایید:

http://dataheart.ir/upload/public/417301497645788.txt