مجموعه داده 476 میلیون توییت مربوط به سال 2009
پیدا کردن منابع مربوط به شبکه های اجتماعی بر اساس محتوای منتشر شده بسیار دشوار است. بسیاری از شبکه های اجتماعی به سختی اجازه دانلود کردن محتوای کاربران را می دهند. توییتر یکی از بهترین شبکه های اجتماعی برای محققین است که اجازه میداد محتوای توییت ها دانلود شود. ولی در سالهای اخیر این شبکه اجتماعی اجازه انتشار محتوای توییت ها را نمی هد و فقط توویت ای دی ها اجازه انتشار دارند. دیتاهارت در این مجموعه داده داده منتشر شده توسط استنفورد را در اختیار شما قرار می دهد. هر چند به دلیل قوانین توییتر این دیتاست دیگر در وب سایتهای خارجی در دسترس نیست.
مشخصات بزرگترین مجموعه داده توییت ها
در این مجموعه داده بیش از 476 میلیون توییت جمع آوری شده است. این توییت های مربوط به سال 2009 هستند و بنابر ادعای تهیه کنندگان حدود سی درصد کل توییت های انداخته شده در ان بازه زمانی را شامل می شود. به صورت دقیق تر متعلق به June 1 2009 to December 31 2009
جزئیات این مجموعه داده در جدول زیر مشاهده می گردد. این مجموعه داده در حدود 25 گیگ ظرفیت دارد که بعد از خرید لینک دانلود برای شما ارسال خواهد شد. اگر مایل هستید این دیتاست از طریق دی وی دی برای شما پست شود باید بیشتر از قیمت مشخص شده و 999 هزار تومن پرداخت نمایید.
Dataset statistics | |
---|---|
Number of users | 17,069,982 |
Number of tweets | 476,553,560 |
Number of URLs | 181,611,080 |
Number of Hashtags | 49,293,684 |
Number of re-tweets | 71,835,017 |
یک نمونه ای شامل هزار توییت در لینک زیر قابل مشاهده است. اگر در زمینه نحوه استفاده از این دیتاست برای تحقیقات خود ابهاماتی دارید می توانید از آکادمی داده مشاوره بگیرید. برای آگاهی از دیتاست های منتشر شده توسط دیتاهارت می توانید به کانال تلگرامی ما بپیوندید.
http://dataheart.ir/upload/public/189631497426080.txt
مرجع اصلی این دیتاست
شما مشخصات کاملتر این دیتاست را می توانید در لینک زیر مشاهده کنید.
https://snap.stanford.edu/data/twitter7.html
لینک های مرتبط
مقالات فارسی برای یادگیری کشف دانش از شبکه های اجتماعی