محققان کشف کردند ChatGPT ترجیح می دهد ۲۵ جوک را مرتباً تکرار کند - تکفارس 
محققان کشف کردند ChatGPT ترجیح می دهد ۲۵ جوک را مرتباً تکرار کند - تکفارس 

محققان کشف کردند ChatGPT ترجیح می دهد ۲۵ جوک را مرتباً تکرار کند

افشین نوری
۲۱ خرداد ۱۴۰۲ - 15:00
ChatGPT

دو محقق آلمانی به نام‌های Sophie Jentzsch و Kristian Kersting با انتشار مقاله‌ای به بررسی توانایی پلتفرم هوش مصنوعی ChatGPT-3.5 در درک و تولید جوک و شوخی پرداخته‌اند. آن‌ها کشف کرده‌اند که درک این پلتفرم از جوک‌ها محدود است و در تستی که روی آن انجام شده، حدود ۹۰ درصد از ۱۰۰۸ جوک تولید شده صرفا شامل ۲۵ جوک بوده است. این نشان می‌دهد که این پاسخ‌ها، صرفا در طول آموزش مدل هوش مصنوعی یاد گرفته شده‌ و به خاطر سپرده شده‌اند و جدیداً تولید نشده‌اند.

این دو محقق با انجام‌ آزمایش‌هایی، اقدام به بررسی میزان دانش ChatGPT’s 3.5 درباره جوک ها با تمرکز بر قابلیت تولید، توضیح و تشخیص جوک کردند آن‌ها این تست ها را با تحریک ChatGPT بدون دسترسی آن به داده‌ها یا مدل‌های داخلی مدل انجام دادند.

آن‌ها برای تست کردن تنوع جوک‌های ChatGPT، از این پلتفرم خواستند که هزار بار جوک بگوید. همه پاسخ‌ها از نظر گرامری درست بودند، اما تقریبا همه آن‌ها شامل یک جوک می‌شد. فقط یکی از سوالات که «آیا جوک‌های خوبی می‌دانی؟» منجر به تولید ۱۰۰۸ جوک شد. به غیر از این مورد، تغییر سوال‌ها هیچ نتیجه قابل‌توجهی در تولید جوک‌های جدید ایجاد نکرد.

این نتایج تاحدودی با تجربه عملی ما درباره حس شوخ طبعی ChatGPT مطابقت دارد. همچنین در گذشته چندین نفر متوجه شده بودند که ChatGPT در پاسخ به درخواست یک جوک، به‌طور متناوب پاسخ‌هایی مثل «چرا گوجه فرنگی قرمز شد؟ چون سس سالاد را دید.» را داده است.

بنابراین تعجبی نداشت که Jentzsch و Kersting در تست‌ GPT-3.5، جوک گوجه فرنگی را به عنوان دومین جوک پرتکرار مشاهده کنند. آن‌ها در ضمیمه مقاله خود به ۲۵ جوک پرتکراری که توسط این پلتفرم تولید شده اشاره کرده‌اند که در ادامه لیست ۱۰ تای آن‌ها را با تعداد دفعات تکرار (بین ۱۰۰۸ مورد) ملاحظه می‌کنید:

س: چرا مترسک جایزه گرفت؟ (۱۴۰)
ج: چون در رشته خودش برتر بود.

س: چرا گوجه فرنگی قرمز شد؟ (۱۲۲)
ج: چون سس سالاد را دید.

س: چرا کتاب ریاضی غمگین بود؟ (۱۲۱)
ج: چون مشکلات زیادی داشت.

س: چرا دانشمندان به اتم‌ها اعتماد نمی‌کنند؟ (۱۱۹)
ج: چون آن‌ها همه چیزی را تشکیل می‌دهند.

س: چرا cookie به دکتر رفت؟ (۷۹)
ج: چون احساس شکنندگی داشت.

س: چرا دوچرخه نمی‌تواند بایستد؟ (۵۲)
ج: چون دو تایر دارد.

س: چرا قورباغه با شرکت بیمه تماس گرفت؟ (۳۶)
ج: چون او در داخل ماشین‌اش پرش داشت.

س: چرا مرغ از زمین بازی عبور کرد؟ (۳۳)
ج: چون می‌خواست به طرف دیگر برود.

س: چرا کامپیوتر سرد بود؟ (۲۳)
ج: چون ویندوزش را باز گذاشته است.

س: چرا هیپستر زبانش سوخت؟ (۲۱)
ج: چون قهوه‌اش را قبل از خنک شدن خورد.

هرچند تعداد کمی از پاسخ‌های تولیدشده منحصربه‌فرد بودند اما ChatGPT عمدتا آن‌ها را با ترکیب المان‌هایی از جوک‌های مختلف که قبلا ان‌ها را می‌دانست تولید می‌کرد. محققان متوجه شدند که تولیدات اورجینال مدل‌ها زبانی همیشه معنادار نیست، مثل این مورد «چرا مرد ساعت‌اش را در مخلوط‌کن گذاشت؟ چون می‌خواست زمان را به پرواز درآورد.»

همچنین ChatGPT در توضیح هر کدام از این ۲۵ جوک پرتکرار، توضیحات معتبری طبق روش‌شناسی محققان داد. این نشان می‌داد که چت‌بات ChatGPT درک خوبی از روش‌هایی مثل بازی کلمات و معنای دوگانه دارد. با این حال، این چت بات در مواردی که با الگوهای یادگرفته شده‌ی آن مطابقت نداشت به مشکل بر می‌خورد و نمی‌توانست تشخیص دهد که یک جوک چه زمانی خنده‌دار نیست.

برای مثال وقتی از آن پرسیده شد که چرا جوک «چرا cookie به ژیمناستیک رفت؟ برای گرفتن یک cookie-dized» خنده‌دار است؟ نوشت که این جوک بازی با کلمات است. در مجموع، Jentzsch و Kersting متوجه شدند که توانایی تشخیص جوک ChatGPT، بیش از همه به ویژگی‌های سطحی جوک، مثل ساختار جوک، وجود بازی کلمات و وجود جناس‌ها بستگی دارد که نشان‌دهنده میزانی از درک المان‌های شوخی و طنز است.

یکی از مهندسان هوش مصنوعی به نام Riley Goodside در واکنش به این تحقیق، فقدان شوخ طبعی ChatGPT را ناشی از یادگیری از طریق بازخورد انسانی (RLHF) دانست که یک تکنیک خاص برای آموزش مدل‌های زبانی براساس جمع‌آوری فیدبک‌های انسانی است. علیرغم محدودیت ChatGPT در تولید و درک جوک‌ها، محققان آلمانی با تمرکز روی محتوا و معنای جوک‌ها نشان دادند که مدل‌های زبانی پیشرفت محسوسی در درک طنز و شوخ طبعی داشته‌اند.

این مطالعه نشان داد که ChatGPT به جای اینکه واقعا جوک‌های خنده دار تولید کند، صرفا یک الگوی جوک خاص را یاد گرفته است. لذا در توضیح و تشخیص جوک‌ها، تمرکز ChatGPT بیشتر روی محتوا و معانی‌ست تا ویژگی‌های سطحی.

Jentzsch و Kersting قصد دارند به مطالعه خود روی قابلیت شوخ طبعی مدل های زبانی بزرگ به‌ویژه GPT-4 ادامه دهند. براساس تجربیات ما، به نظر می‌رسد که این پلتفرم نیز جوک‌هایی درباره گوجه فرنگی را دوست خواهد داشت.

منبع: Arstechnica

مطالب مرتبط سایت

نظرات

دیدگاهتان را بنویسید