این مجموعه داده شامل حاشیه نویسی پیشنهادی برای وظیفه استخراج کلمه کلیدی خودکار است. مجموعه داده شامل یک سند (.txt) و لیست متن های مربوط به متن متنی مربوط به آن است.
این دیتاست دارای 450 چکیده پایان نامه از ایرانداک (موسسه تحقیقات علوم و فناوری اطلاعات ایران) با موضوع علوم انسانی می باشد. پایان نامه هایی که حاوی حداقل 4 کلمه کلیدی استاندارد باشد مورد نظر قرار گرفته است. این مجموعه داده شامل 12000 کلمه کلیدی پایان نامه می باشد.
این مجموعه داده توسط آقای حبیب زاده تهیه شده است.