کلان داده (Big Data) و آشنایی با انواع آن
کلان داده (Big Data) اطلاعاتی که در جهان جاری است و همه توجهها معطوف آنهاست. رشد و توسعه دنیای تجارت، فراگیری اینترنت و هوشمند شدن تمامی وسایل و اشیا همگی در گرو تاثیر خارقالعاده کلان داده در این حوزهها است. نفوذ عمیق کلان داده در ابعاد وسیع و در عمق زندگی امروزی، ما را وا میدارد تا در رابطه با کلان داده اطلاعات بیشتری کسب کنیم.
کلان داده (Big Data) چیست؟
در تعریفی کوتاه میتوان گفت که کلان داده یعنی دادههای پرتنوعی که با حجمی فزاینده و به سرعت در سراسر شبکه جهانی اینترنت گسترش مییابند.
در تعریفی جامعتر، کلان داده به دادههایی گفته میشود که از پیچیدگی بیشتری نسبت به دادههای عادی برخوردارند و از منابعی جدید و در مقیاسهای وسیع به سمت اینترنت جاری میشوند. حجم این دادهها به حدی وسیع است که اغلب نرمافزارهای سنتی و طراحی شده بر مبنای رویکردهای گذشته، قادر به پردازش و مدیریت آنها نخواهند بود.
گذری کوتاه بر تاریخچه کلان داده (Big Data)
اگرچه مفهوم کلان داده به خودی خود مفهومی نسبتاً جدید است؛ اما به طور کلی خاستگاه کلان دادهها به دهههای ۱۹۶۰ و ۱۹۷۰میلادی باز میگردد. مفهوم کلان داده حاصل آشنایی پایگاه دادههای رابطهای ( Relational Database) توسعه یافته با اولین مراکز داده است. در اوایل سال ۲۰۰۵ میلادی متخصصان با حجم وسیعی از دادههای تولید شده در شبکههای اجتماعی نظیر فیسبوک، یوتیوب و سایر سرویسهای آنلاین مواجه شدند. در همین سال بود که فریم ورک مشهور Hadoop به عنوان یک چارچوب متن باز (Open Source) به صورت اختصاصی به توسعه فعالیت خود در حیطه ذخیره، تجزیه و تحلیل مجموعههایی از کلان داده پرداخت.
پس از گذشت مدتی کوتاه NoSQL با ارائه عملکردی مناسب از خود توانست تا همه نگاهها را متوجه خود کند. ظهور چارچوبهای متن باز نظیر Hadoop و Spark،تاثیر خارقالعادهای بر افزایش بازدهی و کاهش هزینههای دنیای کلان دادهها داشت. از آن زمان تا کنون بر میزان حجم دادهها بسیار افزوده شده است. نکته شگفتآور آن است که انسانها به تنهایی در تولید این حجم از اطلاعات دخیل نبودهاند. ظهور پدیدهای به نام اینترنت اشیاء (IoT) و یادگیری ماشینی منجر به اتصال هر چه بیشتر دستگاهها به اینترنت شد و افزایش چشمگیر دادهها را در پی داشت.
“فناوری هوشمند” رسانه تخصصی انقلاب صنعتی چهارم
ویژگیهای کلان داده (Big Data)
از کجا میتوانیم متوجه شویم که دادههایی که با آنها سر و کار داریم، جزوی از کلان داده ها به شمار میروند؟
برای پاسخ به این پرسش تنها کافی است سه ویژگی و شاخصه اصلی کلان دادهها را بر دادههای مد نظر خود اعمال کنید. بنابراین تعریف، کلان دادهها عموماً دربردارند سه ویژگی متمایز کننده هستند که از آنها در دنیای اینترنت به عنوان ۳V نیز یاد میشود. این ۳ ویژگی عبارتند از:
۱- حجیم ( Volume)
در کلان دادهها با دادههایی حجیم، با چگالی کم و بدون ساختار سر و کار داریم. این دادههای حجیم میتوانند از ارزش نامعینی برخوردار باشند. برخی از این سبک دادهها متشکل از فیدهای دادههای توییتر، جریانهای کلیک بر روی یک صفحه وب یا نرمافزارهای تلفن همراه یا حتی اطلاعات بدست آمده از تجهیزات دارای حسگر هستند. میزان حجم کلان دادهها میتواند به ۱۰ ها ترابایت یا حتی ۱۰۰ ها پتابایت برسد.
۲- سریع (Velocity)
تعریف سرعت در دنیای کلان دادهها به معنای بیشترین سرعتی است که در آن دادهها دریافت شدهاند یا روی آنان عملیاتی صورت گرفته است. به طور مثال در تجهیزات هوشمند (مجهز به اینترنت) که تمامی عملکردهای آنان در زمان واقعی (Real Time) یا زمانی نزدیک به زمان واقعی (Semi Real Time) صورت میگیرد؛ لازم است تا ارزیابی و عکسالعمل مناسب (فراخور به شدت حساسیت تجهیزات نسبت به زمان) در زمانی واقعی یا تقریباً نزدیک به زمان واقعی رخ دهد.
۳- متنوع (Variety)
منظور از متنوع بودن کلان دادهها، تنوع و تفاوتهای ساختاری زیادی است که دادههای دریافت شده نسبت به یکدیگر دارند. دادههای دریافت شده به شیوه سنتی از ساختاری معین تشکیل شدهاند و عموماً به صورت منظم در یک پایگاه داده رابطهای ( Relational Database) قرار خواهند گرفت که این ویژگی در رابطه با کلان دادهها صادق نیست. با ظهور کلان دادهها، با دادههایی بدون ساختار یا نیمه ساختار یافته نظیر متن، صدا و ویدیو مواجه هستیم و در این شرایط نیازمند پیشپردازش (Preprocessing) بیشتر جهت استخراج معنا به منظور پشتیبانی از ابر دادهها خواهیم بود.
انواع کلان داده (Big Data) و کاربردهای آن
به طور کلی، کلان دادهها به سه دسته تقسیم میشوند.
۱- دادههای بدون ساختار
این دست از دادهها در هیچ قالب منظم و یک چارچوب ثابت نخواهند گنجید. این دسته از دادهها عموماً در پایگاه دادههای غیررابطهای نظیر NoSQL ذخیرهسازی شده و تجزیه، تحلیل و یافتن الگو در آنها آسان نخواهد بود.
۲- دادههای ساختار یافته
دادههای ساختاریافته به داده های کمی و بسیار منظم گفته میشود. این دسته از کلان دادهها عموماً در یک قالب با طراحی منظم نظیر ستونها، ردیفها و جداول ذخیرهسازی میشوند. منظم بودن دادههای ساختار یافته بر میزان سهولت و سرعت در تجزیه، تحلیل و پردازش دادهها میافزاید.
۳- دادههای نیمه ساختار یافته
دادههای نیمه ساختار یافته عموماً متشکل از متنهای غیرساختاری هستند که قابلیت طبقهبندی به وسیله برچسبهای متا را دربر دارند. این دادهها به تنهایی بیمعنا بوده و به خودی خود ساختار مشخصی ندارند.
کاربرد کلان دادهها (Big Data)
اصلیترین عملکرد کلان داده، رفع چالشهای دنیا تجارت است که پیشتر امکان مقابله با آنان برای ما وجود نداشت. بیگ دیتا در ایران میتواند در تمامی مشاغل و صنایع عملکرد مناسبی از خود ارائه دهد. برخی از این مشاغل عبارتند از:
● رفتارشناسی و یافتن الگو بر روی دادههای تولید شده توسط کاربران در شبکههای اجتماعی
● پیش بینی وضعیت هوا در سطوح خرد و کلان
● بازاریابی و دیجیتال مارکتینگ مشاغل خرد و کلان
● حوزه سلامت و پزشکی
● صنعت رسانه و تلویزیون
● بیمه، سیستمهای بانکداری، بورس و اقتصاد
● برنامههای مسیریابی آنلاین نظیر نرمافزارهای Waze و Google Maps
لازم به ذکر است که به دلیل عدم وجود زیرساختهای مورد نیاز برای بهرهگیری از کلان دادهها، مصوب نشدن قوانین در رابطه با حمایت از دادههای خصوصی کاربران و رعایت نشدن حریم خصوصی کاربران در کشور ایران، از سرعت رشد کلان دادهها تا حد زیادی کاسته شده است.
موارد استفاده از کلان دادهها
کلان دادهها قادرند تا با پوششدهی طیف وسیعی از نیازها در تمامی فعالیتهای تجاری، عملکردی شگفتانگیز از خود برجای بگذارند. در این بخش به بررسی برخی از این کاربردها خواهیم پرداخت.
۱. توسعه محصول
شرکتهایی نظیر نتفلیکس (Netflix) و پروکتر و گمبل (Procter & Gamble) از کلان دادهها در راستای پیشبینی تقاضای مشتریان خود بهره میبرند. این شرکتها با طبقهبندی ویژگیهای کلیدی محصولات و خدمات ارائه شده در گذشته و در حال حاضر، به کشف مدل و رابطه بین ویژگیهای بدست آمده و موفقیت تجاری ناشی از اجرا آنان پرداخته و سعی دارند تا با کشف مدلهای پیشبینیکننده برای محصولات و خدمات جدید خود بر میزان موفقیت خود بیفزایند.
● مثال برای بیگ دیتا
شرکت P&G با استفاده از کلان دادهها و به واسطه تجزیه و تحلیلهای گروههای مشتریان هدف، رسانههای اجتماعی، بازارهای آزمایشی،عرضه اولیه و آزمایشی در فروشگاهها؛ برای تولید و عرضه محصولات جدید خود برنامهریزی میکند.
۲- نگهداری و تعمیرات قابل پیش بینی تجهیزات
پیشبینی عوامل منجر به خرابیهای مکانیکی قطعات نظیر « سال تولید قطعه و مدل تجهیزات» میتواند شما را در نگهداری هر چه بهتر تجهیزات یاری کند. علاوه بر این، با استفاده از کلان دادهها دیگر خبری از گم شدن دادههای فاقد ساختار مانند نتایج میلیونها گزارشهای ورودی، دادههای حسگر، پیغامهای خطا و دمای موتور نخواهد بود.
سازمانها میتوانند تا با بهرهگیری از کلان دادهها و با تجزیه، تحلیل و استخراج دادههای حیاتی از موارد پیشتر مطرح شده، از وقوع حادثه یا مشکلات فنی پیچیده پیشگیری نمایند. در این روش، سازمانها با به حداکثر رساندن عمر مفید هر وسیله میتوانند از بروز خسارتهای جبران ناپذیر اقتصادی جلوگیری کنند.
۳-تجربه مشتریان
رقابت در دنیا تجارت نقشی طلایی ایفاء میکند و عامل مهمی در موفقیت است. شما میتوانید تا با استفاده از کلان دادهها و با جمعآوری داده ها را از رسانه های اجتماعی، بازدیدهای وب، گزارش تماس ها و سایر منابع؛ تجربه تعامل خود با مشتریان را ارتقاء بخشیده و به بیشترین حد ممکن برسانید.
در این شرایط میتوانید تا به ارائه پیشنهادهای شخصی سازی شده ( نسبت به نیازهای مشتریان خود) از ریزش مشتریان خود، کاسته و به طور فعال به مسائلی از این دست رسیدگی کنید.
۴- تشخیص تقلب و پاسداری از امنیت
امنیت شبکه به ما نشان میدهد که طریقه نفوذ هکرها به سیستمهای کامپیوتری هرگز از الگوی ثابتی پیروی نمیکنند. کلان دادهها قادرند تا به واسطه جمعآوری و تحلیل سریع دادهها به دست آمده، شما را در تشخیص الگوهای نفوذ هکرها، اخذ تصمیم در رابطه با دفاع و جلوگیری از تکرار این قبیل تهاجمها یاری نماید.
۵- یادگیری ماشینی
حجیم بودن کلان دادهها میتواند بر سرعت یادگیری ماشینی بیفزاید. در این فرآیند ماشینها میتوانند تا با به کارگیری از برنامههای از پیش نوشته شده و این حجم وسیع از دادهها، به مدلهای آموزشی بیشتری دست پیدا کرده و هرچه سریعتر به نتیجه مطلوب برنامهنویسان خود برسند.
مزایای کلان داده (Big Data)
پیشرفت کلان دادهها از آغاز پیدایش تا به امروز را نمیتوان نادیده گرفت اما باید اذعان داشت که در این زمینه همواره میتوان به نتایج کاربردیتر دست یافت. رایانش ابری ( Cloud Computing) با گسترش و فراهمسازی امکانات مورد نیاز، توانسته تا به رونق هرچه بیشتر کلان دادهها کمک کند. مقیاسپذیری و انعطاف پذیری فضای ابری منجر به تسهیل انجام آزمایش خوشههای ad hoc بر روی زیرمجموعهای از دادهها شده است. از مهمترین دستاوردهای کلان دادهها میتوان به سرعت و جامعیتبخشی در کسب نتایج در تجزیه و تحلیل مقادیر انبوهی از داده و نمایش آنها در پایگاههای اطلاعاتی گراف اشاره کرد.
مزیتهای کلان داده (Big Data):
● بدست آوردن پاسخهای کامل و جامعتر به مسائل به واسطه در اختیار داشتن اطلاعات بیشتر
● افزایش قابلیت اطمینان به اطلاعات کسب شده از دادهها به واسطه دربرداشتن پاسخهای جامعتر
● ایجاد رویکرد کاملاً متفاوت برای مقابله با مشکلات
آینده کلان داده
آینده کلان داده با توجه به سرعت گسترش آن تقریباً پیشبینی ناپذیر است؛ با این حال پیشبینی میشود که در آینده، تمرکز کلان داده بر روی موارد زیر قرار داشته باشد:
● تراز کلان دادهها با اهداف تجاری خاص
● بهینهسازی انتقال دانش بر محور تعالی
● کاهش کمبود مهارتها به واسطه بهرهگیری از استانداردها و حاکمیت آنان بر مشاغل
● همسوسازی دادههای فاقد ساختار با دادههای ساختار یافته
● هماهنگسازی کلان دادهها با مدل اجرای ابری
منبع: پیوست
” اقتصادالکترونیکی“آخرین و به روزترین محتوی در اقتصاددیجیتال