OpenAI ادعا می‌کند که هوش مصنوعی o1 قادر به استدلال و تفکر است

۲۷ مهر ۱۴۰۳

۰ 172 خواندن این مطلب 4 دقیقه زمان میبرد

OpenAI ادعا می‌کند که هوش مصنوعی o1 قادر به استدلال و تفکر است

به گزارش فناوری هوشمند از هوشیو؛ مدل جدید OpenAI با نام «o1» به تازگی منتشر شده و ادعا می‌کند که قادر به «استدلال» و حتی «تفکر» است، اما این ادعا با شک و تردید مواجه شده است.

شک می‌کنم پس هستم

افراد سرشناسی مانند «گری مارکوس» که از بزرگ‌ترین منتقدان این حوزه است، به همراه «کلِم دلانگ»، مدیرعامل هاگین‌فیس (Hugging Face)، این ادعا را به چالش کشیده‌اند. کلم دلانگ در خصوص نحوه تصویرسازی نادرست OpenAI از توانایی‌های o1 می‌گوید: «یک سیستم هوش مصنوعی در حال «تفکر» نیست، بلکه در حال «پردازش» و «اجرای پیش‌بینی‌ها» است، درست مانند یک موتور جستجو یا کامپیوتر.» او اضافه می‌کند: «ایجاد این تصور که سیستم‌های فناوری مانند انسان‌ها عمل می‌کنند، نوعی فریب بازاریابی است که شما را به اشتباه می‌اندازد تا تصور کنید این سیستم‌ها هوشمندتر از چیزی هستند که واقعاً هستند.»

از سوی دیگر، این سؤال مطرح می‌شود که آیا واقعاً این همان چیزی نیست که به آن «تفکر» می‌گوییم؟ «فیلیپ رودز»‍‍‍‍، به این پرسش چنین پاسخ می‌دهد: «مغز انسان‌ها هم در حال «تفکر» نیستند، بلکه در حال اجرای عملیات پیچیده بیوشیمیایی و بیوالکتریکی در مقیاس گسترده هستند.»

بیشتربخوانید: مردم چگونه از هوش مصنوعی مولد (GenAI) استفاده می‌کنند؟

هوش مصنوعی o1 چگونه فکر می‌کند؟

سم آلتمن، مدیرعامل OpenAI، عرضۀ این مدل را «آغاز پارادایمی جدید و هوش مصنوعی که می‌تواند استدلال پیچیدۀ عمومی انجام دهد» توصیف می‌کند. برخلاف مدل‌های قبلی که به محض دریافت دستور شروع به تولید متن می‌کردند، مدل o1 قبل از پاسخ‌دهی به سؤالات مدتی «فکر» می‌کند تا استدلال‌های پیچیده‌تری ارائه دهد. این ویژگی باعث می‌شو‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍د استفاده از این مدل برای حل مسائل پیچیده، به‌ویژه در سطوح علمی بالا مانند دکترا، مناسب‌تر باشد. توانایی این مدل در استدلال پیچیده نه تنها در برنامه‌نویسی و ریاضیات، بلکه در سایر زمینه‌ها نیز به چشم می‌خورد. آلتمن این قابلیت‌ها را به‌عنوان مرحله‌ای جدید در توسعۀ هوش مصنوعی معرفی کرده بود و اکنون به نظر می‌رسد که این ادعاها در حال تحقق‌اند.

طبق گزارش وبلاگ «یادگیری استدلال با LLMها»، الگوریتم یادگیری تقویتی OpenAI به مدل کمک می‌کند تا فرآیند «تفکر» خود را بهبود بخشد و بتواند مسائل را مؤثرتر حل کند. با گذشت زمان، عملکرد مدل o1 بهبود پیدا می‌کند، زیرا آموزش آن به طور مداوم ادامه می‌یابد. این روش با شیوه‌های سنتی که بر افزایش حجم مدل‌ها تمرکز دارند، تفاوت دارد و بر تقویت مهارت‌های استدلال در یک مدل کوچک تمرکز می‌کند.

مدل o1 با استفاده از یادگیری تقویتی، مسائل پیچیده را تحلیل کرده، اشتباهات خود را اصلاح می‌کند و روش‌های جدیدی را امتحان می‌کند. این فرآیند به o1 کمک می‌کند تا با سؤالات دشوار بهتر مقابله کند؛ چرا که این مدل تنها پیش‌بینی کلمه بعدی را انجام نمی‌دهد، بلکه می‌تواند به عقب بازگردد و «تفکر» کند.

یکی از چالش‌های بزرگ این است که کاربران نمی‌توانند ببینند این مدل چگونه فکر می‌کند، حتی اگر بخواهند هزینه‌ای برای درک نحوۀ استدلال آن پرداخت کنند. هزینه‌هایی که برای دسترسی به این اطلاعات پرداخت می‌شود، «توکن‌های استدلال» نام دارد. به‌عبارت‌دیگر، کاربران حتی در صورت پرداخت هزینه نیز نمی‌توانند نحوه دستیابی مدل به پاسخ‌ها را به طور دقیق مشاهده کنند.

بیشتربخوانید: ۸ ابزار هوش مصنوعی مناسب کسب‌ و کار در سال ۲۰۲۴

مدل o1: چگونه «تفکر» می‌کند؟

OpenAI مدل o1 به طور خاص طراحی کرده است تا اطلاعات پنهان خود را نشان ندهد. این کار از طریق «توکن‌های استدلال» انجام می‌شود. در واقع، o1 نمی‌تواند فریب بخورد و قادر به ارائه پاسخ‌های مرحله‌به‌مرحله نیست.

OpenAI توضیح داده است که پنهان‌کردن مراحل استدلال به دلایل مهمی صورت می‌گیرد. اولاً، این اقدام برای ایمنی و رعایت قوانین ضروری است؛ زیرا مدل نیاز دارد بدون نمایش مراحل حساس، اطلاعات را پردازش کند. ثانیاً، این کار به OpenAI اجازه می‌دهد تا از مزیت رقابتی خود محافظت کند و مانع از استفادۀ دیگر مدل‌ها از فرآیندهای استدلالی آن‌ها شود. به‌این‌ترتیب، OpenAI می‌تواند بر الگوهای تفکر مدل نظارت داشته باشد، بدون اینکه مستقیماً در استدلال داخلی آن دخالت کند.

این مدل برای همه مناسب نیست و تمرکز آن بر روی استدلال است. «جف فن»، یکی از کارشناسان این حوزه، مدل «استروبری» یا o1 را روشی جدید در کار با هوش مصنوعی معرفی می‌کند. او می‌گوید: «این مدل، به جای اینکه فقط اطلاعات را یاد بگیرد، تلاش می‌کند در زمان پاسخ به سؤالات بهتر فکر کند.»

استدلال بدون نیاز به مدل‌های بزرگ

استدلال نیازی به مدل‌های بسیار بزرگ ندارد. امروزه بخش‌هایی از مدل‌ها تنها برای ذخیره‌سازی اطلاعات ساده استفاده می‌شوند. اما می‌توان از یک بخش کوچک‌تر به نام «هسته استدلال» استفاده کرد که با ابزارهای دیگر مانند مرورگرها یا برنامه‌های بررسی کد همکاری می‌کند. به‌این‌ترتیب، مدل می‌تواند بدون نیاز به بزرگ‌شدن، سریع‌تر و کارآمدتر فکر کند.

این روش نیاز به حجم زیاد محاسبات برای آموزش اولیه را کاهش می‌دهد و در عوض بیشتر توان محاسباتی به زمان پاسخ‌دهی مدل اختصاص می‌یابد، نه به زمانی که قبل یا بعد از آموزش صرف می‌شود. مدل‌های زبان بزرگ (LLM) مانند AlphaGo نیز از رویکردهای مشابه استفاده می‌کنند تا به بهترین راه‌حل‌ها دست یابند و با گذشت زمان، این روش کمک می‌کند که مدل‌ها به بهینه‌ترین پاسخ‌ها برسند.

بیشتربخوانید: صرفه‌جویی با هوش مصنوعی در مصرف انرژی کسب‌وکارها

چالش‌های پیش روی مدل o1

«سببارو کامبهمپاتی» در یکی از پست‌های خود توضیح داده که اطلاعات دقیقی دربارۀ چگونگی عملکرد مدل o1 ندارد؛ اما حدس می‌زند که این مدل چه کارهایی انجام می‌دهد. او اضافه می‌کند که پست او نکتۀ جدیدی را فاش نمی‌کند و تنها به استفاده از زبان برنامه‌نویسی پایتون در این مدل اشاره دارد.

OpenAI احتمالاً زودتر از دیگران به اهمیت مقیاس‌گذاری در زمان استنتاج پی برده است؛ درحالی‌که تحقیقات علمی به‌تازگی به این موضوع پرداخته‌اند. اگرچه o1 در آزمایش‌ها نتایج خوبی ارائه می‌دهد؛ اما استفاده از آن برای کارهای استدلالی واقعی با چالش‌هایی همراه است. مواردی مانند زمان توقف جست‌وجو، نحوه تعریف عملکردهای پاداش و چگونگی مدیریت هزینه‌های محاسباتی برای کارهایی مانند تفسیر کد، همچنان به بررسی نیاز دارند تا بتوانیم از این مدل در موقعیت‌های بیشتر و پیچیده‌تر استفاده کنیم.

پاداش‌دهی و بهبود عملکرد o1

OpenAI می‌گوید مدل o1 شبیه به یک چرخ‌دنده عمل می‌کند. وقتی o1 پاسخ‌های درستی ارائه می‌دهد، این پاسخ‌ها به‌عنوان داده‌های آموزشی استفاده می‌شوند. اگر پاسخ درست باشد، مدل پاداش مثبتی دریافت می‌کند و اگر نادرست باشد، پاداش منفی می‌گیرد. این فرایند به o1 کمک می‌کند تا در طول زمان تفکر بهتری داشته باشد. این رویکرد شبیه به روش AlphaGo است که توانست با استفاده از داده‌های خود عملکرد بهتری از خود نشان دهد و در نهایت داده‌های باارزش‌تری تولید کند.

به همین دلیل، اگر مدت بیشتری با ChatGPT تعامل داشته باشید، احتمالاً با گذشت زمان پاسخ‌های دقیق‌تری دریافت خواهید کرد. به نظر می‌رسد OpenAI بیش از سرعت پاسخ‌دهی، بر روی کیفیت پاسخ‌ها تمرکز دارد.

منبع: هوشیو

بیشتربخوانید: کارمندانی که مهارت هوش مصنوعی دارند می‌توانند حقوق بالاتری دریافت کنند