هوش مصنوعی تصاویر پیچیده را درک نمی‌کند!

آخرین به روز رسانی: ۱ بهمن ۱۴۰۲

۰ 51 خواندن این مطلب 3 دقیقه زمان میبرد

هوش مصنوعی تصاویر پیچیده را درک نمی‌کند!

با وجود این‌که برنامه‌های مبتنی بر هوش مصنوعی، عملکرد مناسبی در تشخیص موضوعات ساده در تصویر دارند، اما در درک تصاویر پیچیده و دشوار به‌اندازه انسان، موفق نیستند

آیا تاکنون در حال مشاهده تصاویر گالری تلفن همراه یا آلبوم خاطرات، به تصویری برخورد کرده‌اید که در نگاه اول نامشخص باشد و نتوانید تشخیصش بدهید؟ فکر می‌کنید دلیل دشواری درک آن تصویر چه بوده و چه تفاوتی با تصاویری دارد که در لحظه دیدن، تشخیصشان می‌دهید؟

محققان آزمایشگاه علوم کامپیوتر و هوش مصنوعی MIT (به‌اختصار CSAIL) متوجه شدند که با وجود اهمیت بسیار زیاد درک تصاویر در حوزه‌های مختلفی مانند مراقبت‌های بهداشتی، حمل‌ونقل و مالی، تا حالا تلاش بسیاری برای فهم عمیق متغیرهای مؤثر در دشواری درک بصری انجام نشده است. این محققان معتقدند که شناخت متغیرهای مذکور می‌تواند به بهره‌برداری آگاهانه از آن‌ها در جهت آموزش ابزارهای هوش مصنوعی و بهبود توانایی‌های بینایی ماشین منجر شود.

با وجود این‌که برنامه‌های مبتنی بر هوش مصنوعی، عملکرد مناسبی در تشخیص موضوعات ساده در تصویر دارند، اما در درک تصاویر پیچیده و دشوار به‌اندازه انسان، موفق نیستند؛ بنابراین می‌توان گفت هنوز روش دقیقی برای سنجش میزان دشواری یک تصویر تعریف نشده است.

دیوید مایو، دانشجوی دکترای مهندسی برق و علوم کامپیوتر در MIT به بررسی این موضوع پرداخت که چرا تشخیص و ادراک برخی از تصاویر برای انسان و ماشین دشوارتر است. او احتمال داد که مغز ما در بررسی تصاویر دشوار از پروسه‌ای خاص بهره می‌برد که هوش مصنوعی فاقد آن است و تنها زمانی می‌توانیم به چیستی و چگونگی این فرایندها پی ببریم که نحوه درک و تقابل با تصاویر دشوار را مورد آزمایش قرار دهیم.

برای سنجش فاکتور سختی تصاویر، مقیاس تازه‌ای تحت عنوان «حداقل زمان دیدن» یا به‌اختصار “MVT” تعریف شد. این معیار میزان دشواری ادراک بصری را اندازه‌گیری می‌کند؛ در واقع هر اندازه که MVT یک تصویر بالاتر باشد، ذهن، زمان بیشتری برای ادراک آن نیاز دارد. محققان MIT، حدود ۲۰۰ هزار تصویر را از مجموعه‌هایی مانند ImageNet و ObjectNet از ۱۷ میلی‌ثانیه تا ۱۰ ثانیه به شرکت‌کنندگان نشان دادند و سپس از آن‌ها خواستند تا تصویر موردنظر را از بین ۵۰ گزینه انتخاب کنند. نتیجه این بود که ابزار هوش مصنوعی معمولا با تصاویر ساده مورد آزمایش قرار گرفته و به‌همین دلیل چالش بزرگی برای درک بصری نداشته‌اند اما بعضی از مدل‌های مصنوعی مانند CLIP که هم از زبان و هم از بینش بهره می‌برند، در سنجش تصاویر پیچیده بهتر عمل کرده‌اند.

دیوید مایو می‌گوید: یکی از بزرگ‌ترین دستاوردهای ما این است که اکنون فاکتور تازه‌ای برای ارزیابی مدل‌ها داریم. ما سعی داریم ابزاری بسازیم که بتواند هر تصویری را هرچند پیچیده تشخیص بدهد و در این راستا اکنون برای اولین‌بار تلاش کردیم تا دشواری درک بصری را کمّی کنیم.

درک تصاویر پیچیده؛ ضعف نادیدۀ هوش مصنوعی 1

از ObjectNet تا MVT

چندسال پیش، افرادی حاضر در یک پروژه، با مشکل تازه‌ای روبه‌رو شدند؛ آن‌ها متوجه شدند که برنامه‌های کامپیوتری برای تشخیص تصاویر اشیایی که تا آن زمان ندیده بودند، خوب عمل نمی‌کنند. برای کمک به این امر، آن‌ها مجموعه جدیدی از تصاویر به نام ObjectNet را ساختند. این تصاویر که از زندگی روزمره برخاسته بودند نشان دادند که برنامه‌های کامپیوتری در تشخیص اشیا به‌ اندازه افراد، خوب نیستند، به‌خصوص زمانی که اشیا، ظاهری متفاوت داشتند یا با پس‌زمینه‌های عجیب‌وغریب جفت شده بودند. از آن‌جا ObjectNet باعث شد که ضعف هوش کامپیوتر آشکار شده و نیاز به بهبود آن حس شود.

تیم تحقیقات MIT، این بهبود را با آزمایش‌های خود یک قدم جلوتر برده است؛ در واقع برخلاف روش‌های قبلی که بر عملکرد مطلق ابزارها توجه می‌کردند، این رویکرد جدید نحوه عملکرد مدل‌ها را با توجه‌ به تفاوت سرعت پاسخ‌هایشان به ساده‌ترین و سخت‌ترین تصاویر ارزیابی می‌کند.

این مطالعه موفق شد هوش مصنوعی را در موقعیت مشابه قرار دهد و بسنجد که این ابزار در زمان مواجهه با تصاویر دشوار چه عملکردی دارد. تیم تحقیقات متوجه این واقعیت شد که تصاویر سخت‌تر به‌صورت متفاوتی توسط شبکه‌ها پردازش می‌شوند.

مایو می‌گوید: وقتی تصاویر از سطح ساده فراتر می‌روند و پای شبکه معنایی پیچیده به میان می‌آید، ضعف هوش مصنوعی در ادراک نمایان‌تر می‌شود. به‌عنوان مثال، در حوزه‌هایی مثل خدمات بهداشتی، فاصله ادراک ابزارهای هوش مصنوعی با یک متخصص بسیار زیاد است، زیرا درک نتیجه از روی تصویر یک رادیولوژی، عمل پیچیده‌ای محسوب می‌شود و به بینشی پیشرفته‌تر از توانایی حال حاضر هوش مصنوعی برمی‌گردد.

مایو و کامینگز در حال حاضر در حال تحقیق دربارۀ زیربناهای عصبی تشخیص بصری هستند و بررسی می‌کنند که آیا مغز در هنگام پردازش تصاویر آسان در مقابل چالش برانگیز، فعالیت متفاوتی از خود نشان می‌دهد یا خیر. هدف مطالعه مذکور، پاسخ به این سوال است که آیا تصاویر پیچیده، نواحی خاصی از مغز را جذب می‌کنند که معمولا در پردازش بصری ساده، فعال نیستند یا خیر، آن‌ها درباره نتیجه اعلام امیدواری کرده و می‌گویند: امیدوارم این مطالعه، از حقایق تازه‌ای درباره فعالیت مغز پرده بردارد.

به سمت عملکرد در سطح انسانی

علی‌رغم پیشرفت‌های قابل توجه این مطالعه، محققان MIT محدودیت‌های هوش مصنوعی را در این مقوله تأیید می‌کنند. دیوید مایو می‌گوید: تحقیق فعلی می‌تواند راه را برای درک عمیق‌تر توسط هوش مصنوعی هموار کند، آلن یویل، پروفسور مشهور علوم شناختی بلومبرگ نیز معتقد است این مطالعه شگفت‌انگیز نه‌تنها منجر به بهبود عملکرد ابزارهای هوش مصنوعی خواهد شد؛ بلکه کمک می‌کند تا نگاه دقیق‌تری به توانایی‌های آن‌ها داشته باشیم.

منبع: هوشیو

برچسب ها