دو محقق آلمانی به نامهای Sophie Jentzsch و Kristian Kersting با انتشار مقالهای به بررسی توانایی پلتفرم هوش مصنوعی ChatGPT-3.5 در درک و تولید جوک و شوخی پرداختهاند. آنها کشف کردهاند که درک این پلتفرم از جوکها محدود است و در تستی که روی آن انجام شده، حدود ۹۰ درصد از ۱۰۰۸ جوک تولید شده صرفا شامل ۲۵ جوک بوده است. این نشان میدهد که این پاسخها، صرفا در طول آموزش مدل هوش مصنوعی یاد گرفته شده و به خاطر سپرده شدهاند و جدیداً تولید نشدهاند.
این دو محقق با انجام آزمایشهایی، اقدام به بررسی میزان دانش ChatGPT’s 3.5 درباره جوک ها با تمرکز بر قابلیت تولید، توضیح و تشخیص جوک کردند آنها این تست ها را با تحریک ChatGPT بدون دسترسی آن به دادهها یا مدلهای داخلی مدل انجام دادند.
آنها برای تست کردن تنوع جوکهای ChatGPT، از این پلتفرم خواستند که هزار بار جوک بگوید. همه پاسخها از نظر گرامری درست بودند، اما تقریبا همه آنها شامل یک جوک میشد. فقط یکی از سوالات که «آیا جوکهای خوبی میدانی؟» منجر به تولید ۱۰۰۸ جوک شد. به غیر از این مورد، تغییر سوالها هیچ نتیجه قابلتوجهی در تولید جوکهای جدید ایجاد نکرد.
این نتایج تاحدودی با تجربه عملی ما درباره حس شوخ طبعی ChatGPT مطابقت دارد. همچنین در گذشته چندین نفر متوجه شده بودند که ChatGPT در پاسخ به درخواست یک جوک، بهطور متناوب پاسخهایی مثل «چرا گوجه فرنگی قرمز شد؟ چون سس سالاد را دید.» را داده است.
بنابراین تعجبی نداشت که Jentzsch و Kersting در تست GPT-3.5، جوک گوجه فرنگی را به عنوان دومین جوک پرتکرار مشاهده کنند. آنها در ضمیمه مقاله خود به ۲۵ جوک پرتکراری که توسط این پلتفرم تولید شده اشاره کردهاند که در ادامه لیست ۱۰ تای آنها را با تعداد دفعات تکرار (بین ۱۰۰۸ مورد) ملاحظه میکنید:
س: چرا مترسک جایزه گرفت؟ (۱۴۰)
ج: چون در رشته خودش برتر بود.
س: چرا گوجه فرنگی قرمز شد؟ (۱۲۲)
ج: چون سس سالاد را دید.
س: چرا کتاب ریاضی غمگین بود؟ (۱۲۱)
ج: چون مشکلات زیادی داشت.
س: چرا دانشمندان به اتمها اعتماد نمیکنند؟ (۱۱۹)
ج: چون آنها همه چیزی را تشکیل میدهند.
س: چرا cookie به دکتر رفت؟ (۷۹)
ج: چون احساس شکنندگی داشت.
س: چرا دوچرخه نمیتواند بایستد؟ (۵۲)
ج: چون دو تایر دارد.
س: چرا قورباغه با شرکت بیمه تماس گرفت؟ (۳۶)
ج: چون او در داخل ماشیناش پرش داشت.
س: چرا مرغ از زمین بازی عبور کرد؟ (۳۳)
ج: چون میخواست به طرف دیگر برود.
س: چرا کامپیوتر سرد بود؟ (۲۳)
ج: چون ویندوزش را باز گذاشته است.
س: چرا هیپستر زبانش سوخت؟ (۲۱)
ج: چون قهوهاش را قبل از خنک شدن خورد.
هرچند تعداد کمی از پاسخهای تولیدشده منحصربهفرد بودند اما ChatGPT عمدتا آنها را با ترکیب المانهایی از جوکهای مختلف که قبلا انها را میدانست تولید میکرد. محققان متوجه شدند که تولیدات اورجینال مدلها زبانی همیشه معنادار نیست، مثل این مورد «چرا مرد ساعتاش را در مخلوطکن گذاشت؟ چون میخواست زمان را به پرواز درآورد.»
همچنین ChatGPT در توضیح هر کدام از این ۲۵ جوک پرتکرار، توضیحات معتبری طبق روششناسی محققان داد. این نشان میداد که چتبات ChatGPT درک خوبی از روشهایی مثل بازی کلمات و معنای دوگانه دارد. با این حال، این چت بات در مواردی که با الگوهای یادگرفته شدهی آن مطابقت نداشت به مشکل بر میخورد و نمیتوانست تشخیص دهد که یک جوک چه زمانی خندهدار نیست.
برای مثال وقتی از آن پرسیده شد که چرا جوک «چرا cookie به ژیمناستیک رفت؟ برای گرفتن یک cookie-dized» خندهدار است؟ نوشت که این جوک بازی با کلمات است. در مجموع، Jentzsch و Kersting متوجه شدند که توانایی تشخیص جوک ChatGPT، بیش از همه به ویژگیهای سطحی جوک، مثل ساختار جوک، وجود بازی کلمات و وجود جناسها بستگی دارد که نشاندهنده میزانی از درک المانهای شوخی و طنز است.
یکی از مهندسان هوش مصنوعی به نام Riley Goodside در واکنش به این تحقیق، فقدان شوخ طبعی ChatGPT را ناشی از یادگیری از طریق بازخورد انسانی (RLHF) دانست که یک تکنیک خاص برای آموزش مدلهای زبانی براساس جمعآوری فیدبکهای انسانی است. علیرغم محدودیت ChatGPT در تولید و درک جوکها، محققان آلمانی با تمرکز روی محتوا و معنای جوکها نشان دادند که مدلهای زبانی پیشرفت محسوسی در درک طنز و شوخ طبعی داشتهاند.
این مطالعه نشان داد که ChatGPT به جای اینکه واقعا جوکهای خنده دار تولید کند، صرفا یک الگوی جوک خاص را یاد گرفته است. لذا در توضیح و تشخیص جوکها، تمرکز ChatGPT بیشتر روی محتوا و معانیست تا ویژگیهای سطحی.
Jentzsch و Kersting قصد دارند به مطالعه خود روی قابلیت شوخ طبعی مدل های زبانی بزرگ بهویژه GPT-4 ادامه دهند. براساس تجربیات ما، به نظر میرسد که این پلتفرم نیز جوکهایی درباره گوجه فرنگی را دوست خواهد داشت.
منبع: Arstechnica
نظرات