کدخبر :329399 پرینت
15 آذر 1404 - 15:51

بیشترین ضریب خطا مربوط به کدام هوش مصنوعی است؟

گزارش جدید مرکز تاو در دانشگاه کلمبیا نشان می‌دهد که مدل‌های پریمیوم هوش مصنوعی با هزینه ماهانه بین ۲۰ تا ۴۰ دلار عملکردی ضعیف‌تر از نسخه‌های رایگان داشته‌اند و در عین هزینه بیشتر، اعتمادبه‌نفس بالاتر و خطای بیشتری از خود نشان داده‌اند.

متن خبر

به گزارش سیتنا، گزارش جدید مرکز «تاو» در دانشگاه کلمبیا نشان می‌دهد مجموعه‌ای از موتورهای جست‌وجوی مبتنی بر هوش مصنوعی، از جمله ChatGPT، Gemini، Grok، Perplexity، Copilot و DeepSeek، در انجام ساده‌ترین وظایف دچار خطاهای گسترده شده‌اند.

براساس این تحقیق، مدل‌های پریمیوم با هزینه ماهانه بین ۲۰ تا ۴۰ دلار عملکردی ضعیف‌تر از نسخه‌های رایگان داشته‌اند و در عین هزینه بیشتر، اعتمادبه‌نفس بالاتر و خطای بیشتری از خود نشان داده‌اند.

در این بررسی، هشت ابزار مختلف با یک آزمون ساده سنجیده شدند؛ پژوهشگران از موتورهای هوش مصنوعی خواستند براساس بخشی از یک خبر، عنوان، ناشر، تاریخ و نشانی اینترنتی مطلب را شناسایی کنند.

این آزمایش که برای ۱۶۰۰ پرسش طراحی شده بود، نشان داد ابزارها در مجموع بیش از ۶۰ درصد پاسخ‌های اشتباه ارائه داده‌اند. این خطاها نه در تحلیل‌های پیچیده یا پیش‌بینی‌های دشوار، بلکه در نقل یک منبع ساده خبری رخ داده‌اند؛ وظیفه‌ای که یک جست‌وجوی عادی در گوگل بی‌درنگ انجام می‌دهد.

نتایج عملکرد هر ابزار شگفت‌انگیز بود. Grok 3 حدود ۹۴ درصد پاسخ‌های نادرست داشت. Gemini فقط یک پاسخ درست از میان ۲۰۰ درخواست ارائه کرد. ChatGPT حدود ۶۷ درصد خطا داشت و Perplexity با نرخ خطای ۳۷ درصد بهترین عملکرد را ثبت کرد.

در بخش دیگری از یافته‌ها آمده است که ChatGPT در ۱۳۴ مورد اطلاعات اشتباه داده و تنها در ۱۵ پاسخ ابراز تردید کرده و هیچ‌گاه نگفته «نمی‌دانم». همچنین طبق گزارش، Grok 3 نه‌تنها منابع را اشتباه ارائه کرده بلکه در بسیاری موارد آن‌ها را ساخته است؛ از ۲۰۰ درخواست بررسی‌شده، ۱۵۴ نشانی اینترنتی به صفحات خطا یا نشانی‌های ساختگی منتهی شده‌اند.

پژوهشگران تأکید کرده‌اند مشکل اصلی فقط میزان خطا نیست، بلکه اعتمادبه‌نفس ابزارها در ارائه پاسخ‌های کاملاً نادرست است. آن‌ها می‌گویند اکثر مدل‌ها با «اعتمادبه‌نفس نگران‌کننده» اطلاعات غلط ارائه کرده‌اند.

به گفته نویسندگان، این رفتار یک نقص فنی قابل رفع نیست، بلکه بخش ذاتی معماری مدل‌های زبانی است که بر پیش‌بینی جملات محتمل استوارند و نه دانستن واقعیات. این مطالعه هشدار می‌دهد که این ابزارها در حوزه‌هایی مانند کدنویسی، خلاصه‌سازی قراردادها، تحلیل سرمایه‌گذاری، تنظیم اسناد حقوقی و تولید اطلاعات پزشکی نیز به کار می‌روند؛ حوزه‌هایی که دقت در آن‌ها حیاتی است.

انتهای پیام

نظرات خود را با ما درمیان بگذارید

افزودن دیدگاه جدید

کپچا
CAPTCHA ی تصویری
کاراکترهای نمایش داده شده در تصویر را وارد کنید.