چرا ابزارهای تشخیص متون هوش مصنوعی دچار اشتباه می شوند؟

۱ مرداد ۱۴۰۲ - 16:40

اگر مهم‌ترین سند قانونی ایالات متحده آمریکا یا قانون اساسی این کشور را وارد ابزارهای تشخیص متون کنید که برای تشخیص فعالیت هوش مصنوعی و چت بات‌هایی مانند: ChatGPT ساخته شده، این ابزار به شما اعلام می‌کند که قانون اساسی آمریکا تا احتمال ۹۶ درصد توسط هوش مصنوعی نوشته شده است؛ مگر اینکه جیمز مدیسون مسافر زمان باشد که درحال حاضر موضوع اصلی ما نیست.

چرا ابزارهای تشخیص متون به ما پاسخ های مثبت ولی غلط می دهند؟

امروزه، ابزارهای تشخیص متون موجب انتشار اخبار و مطالب جنجالی شده‌اند که بخشی از آن‌ها را پروفسورهای هیجان زده‌ای سهیم می‌شوند که به تمامی اعضای کلاس خود به دلیل استفاده از هوش مصنوعی شک دارند و حتی دانش آموزان و کودکان نیز پس از تمام کردن تکالیف و رایتینگ‌های خود به دلیل تقلب و استفاده از ChatGPT در دردسر می‌افتند.

ابزارهای تشخیص متون موجب شده‌اند تا دانش آموزان و دانشجویان در برخی اوقات با بحران هویت مواجه شوند و معلمان و اساتید نیز که با روش‌های تدریس توسعه یافته نسبت به چند دهه پیش روی کار آمده‌اند، مجبور هستند تا با چنین مشکلاتی کنار بیایند و در کنار ارزیابی تسلط دانشجویان روی موضوعات تخصصی از طریق نوشتن مقاله یا انشاء، از نتیجه کار آنها استعلام بگیرند که آیا متن آنها توسط خودشان نوشته شده یا از هوش مصنوعی کمک گرفته‌اند؟

استفاده از ابزارهای تشخیص متون اگرچه به اندازه کمک گرفتن از هوش مصنوعی شیرین و زیرکانه است، اما شواهد ثابت کرده‌اند که این ابزارها قابل اتکا نیستند. بنابر نتایج غلطی که از آن‌ها دریافت شده، ابزارهایی مانند: GPTZero، ZeroGPT و حتی Text Classifier که توسط شرکت Open Ai توسعه یافته برای تشخیص مدل‌های بزرگ زبان مانند: LLM ها و ChatGPT کاربردی نیستند.

بنابر تصویر بالا، اگر قسمتی از قانون اساسی آمریکا را وارد بخش ورودی ابزار GPTZeroکنید، به شما اطلاع می‌دهد که احتمال اینکه این متن توسط هوش مصنوعی نوشته شده باشد ۹۶ درصد است. در شش ماه گذشته، اسکرین شات‌های متعددی از نتایج سایر ابزارهای تشخیص متون در فضای مجازی، شبکه‌های اجتماعی و همچنین رسانه منتشر شده که اندکی گیج کننده و فکاهی است.
اینکه نویسنده قانون اساسی کشور آمریکا هوش مصنوعی بوده، تنها نمونه کوچکی از ابهامات است و این ابزار حتی به انجیل نیز رحم نکرده است. برای اینکه بفهمیم چرا این ابزارها به چنین اشتباهاتی مرتکب می‌شوند، باید ابتدا به نحوه کار آن‌ها پی ببریم.

فهم مفاهیم ابزارهای تشخیص متون

ابزارهای مختلف تشخیص متون از روش‌های یکسان، اما از منطق متفاوتی در فرایند کار خود استفاده می‌کنند.
مدل‌های زبانی وجود دارند که روی متن‌های گسترده‌ای مانند: میلیون‌ها رایتینگ تمرکز می‌کنند و علاوه بر این، مجموعه‌ای از قوانین نیز برای تشخیص متن نوشته شده انسان و هوش مصنوعی برای آن‌ها وضع می‌شود تا از طریق آن‌ها آموزش ببینند.

به عنوان نمونه، قلب ابزار GPTZero متشکل از شبکه عصبی است که براساس مجموعه بزرگ و متنوعی از متون انسان و هوش مصنوعی و با تمرکز بر نثر روان انگلیسی آموزش دیده است. در مرحله بعد، سیستم برای ارزیابی متن و طبقه بندی آن از ویژگی‌هایی مانند: پیچیدگی و یا burstiness در ارزیابی و دسته بندی متون استفاده می‌کند.

در یادگیری ماشین، Perplexity یا پیچیدگی، یک معیار سنجش است و تعیین می‌کند متونی که در دسترس مدل زبانی قرار گرفته تا چه حد با آموزش‌ها فرق می‌کند.

چگونه اپلیکیشن ChatGPT را روی آیفون استفاده کنیم؟

بنابراین، معیار پیچیدگی موضوعی است که حین نوشتن، به مدل‌های زبانی مربوط می‌شود. مدل‌های زبانی مانند ChatGPT در همان ابتدای کار از بهترین منبع خود یعنی داده‌های آموزشی بهره می‌برند و هرچقدر خروجی نتایج آن‌ها به داده‌های یادگیری نزدیک باشد، میزان پیچیدگی نیز کاهش می‌یابد.
در این بین، اگرچه انسان‌ها نیز نویسندگان بی نظمی هستند، اما می‌توانند با پیچیدگی کمتری بنویسند. علاوه بر این، متونی که در زمینه قانون و با سبک آکادمیک یا رسمی نوشته می‌شود دارای عبارات مشابهی است.

حالا بیایید ۲ مثال عادی و عجیب را مطرح کنیم. همه ما با وارد کردن “من یک لیوان …… می‌خواهم” با عبارات تکمیل شده ای مانند: آب، چای و قهوه در جای خالی مواجه شده‌ایم که براساس داده‌های آموزشی مدل‌های زبانی عادی است و پیچیدگی در این عبارت بسیار کمتر است.

در مثال دوم، جای خالی درنظر گرفته نشده و “من یک لیوان عنکبوت می‌خواهم” هم انسان و هم مدل زبانی را شگفت زده و گیج می‌کند. از اینرو، میزان پیچیدگی و گیج کردن این جمله بالا است. همانطور که در عکس پایین مشاهده می‌کنید، در مقابل ۳.۷ میلیون نتیجه‌ای که روی موتور جستجوی گوگل برای ” من یک لیوان قهوه می‌خواهم” به نمایش درآمده، تنها یک مورد به عبارت “من یک لیوان عنکبوت” می‌خواهم ارتباط داده شد.

اگر زبان و نگارش بکار برده شده در بخشی از متن و براساس آموزش‌های مدل، غافلگیر کننده نباشد، پیچیدگی پایین خواهد آمد. از اینرو، ابزارهای تشخیص متون، بیشتر به متن مورد نظر شک خواهند کرد و آن را به عنوان متن ساخته شده توسط هوش مصنوعی در نظر می‌گیرند. تمامی این توضیحات به آرامی ما را به سوژه جالب قانون اساسی آمریکا می‌رساند.

در واقع، سبک نوشتاری قانون اساسی آنقدر در این مدل‌ها ریشه دوانده است که ابزارها آن را به‌ عنوان متن هوش مصنوعی طبقه‌بندی می‌کنند و درصد تایید آن‌ها بالا خواهد بود. Edward Tian که به عنوان سازنده GPTZero از او یاد می‌شود در رابطه با قانون اساسی آمریکا گفت:

قانون اساسی آمریکا به شکل مکرر به داده‌های آموزشی بسیاری از مدل‌های زبانی انتقال داده می‌شود. در نتیجه، موارد بیشتری از مدل‌های بزرگ زبان آموزش دیده‌اند تا متون مشابهی با قانون اساسی و سایر متون پر استفاده تولید کنند.

اما مشکل اصلی این است که نوشتن متون با پیچیدگی پایین برای انسان‌ها میسر است و اگر جملاتی را با افعال، کلمات و سبک نوشتاری ساده بنویسیم، آشکار کردن واقعیت با مشکل مواجه می‌شود و طیف گسترده‌ای از کاربران سردرگم خواهند شد.

یکی دیگر از ویژگی‌های متن که توسط GPTZero مورد سنجش قرار می‌گیرد، “burstiness” است. burstiness به پدیده‌ای گفته می‌شود که در آن کلمات یا عبارات به‌ شکل پشت سر هم ظاهر می‌شوند. در کل، burstiness تنوع و ساختار را در طول جمله و در سراسر متن ارزیابی می‌کند.

نویسندگان (انسان ها) از سبک‌های پویایی در نوشته‌های خود استفاده می‌کنند که در نتیجه، ساختار و طول جملات متنوع خواهد شد. به عنوان نمونه، ما این توانایی را داریم تا در کنار نوشتن و نگارش جملات بلند و پیچیده به نوشتن جملات کوتاه نیز بپردازیم، از تعداد زیادی از صفات در یک جمله استفاده کنیم و حتی در سایر متن‌ها به آن‌ها اشاره‌ای کوچک نیز نکنیم. این تنوع یک خروجی طبیعی از خلاقیت انسان است که به خودانگیختگی نیز مرتبط است.

در مقابل نوشته‌های انسان‌ها، متن‌های هوش مصنوعی بافتی پیوسته و رسمی دارد و یا حداقل در بعضی از موارد مشخص شده است. مدل‌های زبانی نیز که در ابتدای قدم‌های خود قرار دارند، جملات را با ساختار و طول مشابهی می‌نویسند. این کمبود تنوع باعث می‌شوند تا امتیاز Burstiness پایین، نمایانگر نوشته شده بودن متن توسط هوش مصنوعی باشد.

آیا هوش مصنوعی به کتاب های صوتی نیز رحم نمی‌کند؟

با این حال، burstiness یک معیار خطاناپذیر برای تشخیص محتوای هوش مصنوعی نیست و همانند perplexity، استثنائاتی نیز وجود دارد. ممکن است نویسنده به سبکی کاملاً ساختارمند و پیوسته بنویسد که در نتیجه نمره burstiness پایینی به دست می‌آورد.

برعکس، یک مدل هوش مصنوعی ممکن است به شکلی آموزش داده شود که جملات و ساختار آن بیشتر به انسان شبیه باشد و امتیاز Burstiness افزایش یابد. در واقع، مدل‌های زبانی به شکل روزافزون بهبود می‌یابند و مطالعات نشان می‌دهد که متون آنها بیشتر شبیه نوشته‌های انسان است.

در کل، هیچ فرمول جادویی برای ایجاد تمایز بین متون انسان و هوش مصنوعی وجود ندارد. اگرچه ابزارهای تشخیص متون می‌توانند حدس‌های قوی بزنند، اما حاشیه مشکلات، آنقدر زیاد است که برای نتایج دقیق نمی‌توان به آن‌ها اتکا کرد.

یک مطالعه که در سال ۲۰۲۳ و توسط محققان دانشگاه Maryland انجام شد، نشان داد که ابزارهای تشخیص متون در بسیاری از مواقع کاربردی نیستند و تنها می‌توانند عملکرد بهتری را نسبت به الگوریتم طبقه بندی یادگیری ماشین داشته باشند.

Simon Willison، محقق هوش مصنوعی گفت:

به نظرم ابزارهای تشخیص متون همانند روغن مار هستند. همه انتظار دارند تا از این محصول به شکل جداگانه استفاده کنند. بااینکه فروش محصولی که همه خواهان آن هستند آسان است، اما در سمت دیگری از قضیه، تاثیر گذاری آن نیز از اهمیت بالایی برخوردار است.

علاوه بر این، مطالعه اخیر دانشگاه استنفورد نشان داد که ابزارهای تشخیص متون رابطه مثبتی با نویسندگان غیر انگلیسی زبان ندارند و متون آن‌ها بیشتر از نویسندگان انگلیسی زبان به عنوان متن هوش مصنوعی تشخیص داده می‌شود.

هزینه اتهام اشتباه و تشخیص ابزارهای تشخیص متون

بعضی از افراد، مانند Ethan Mollick که در مدرسه Wharton کار می‌کند، از هوش مصنوعی استقبال می‌کند و حتی استفاده از ابزار‌هایی مانند: ChatGPT را برای یادگیری بهتر پیشنهاد می‌کند. به گفته‌ی او هیچ ابزار قابل اتکایی برای تشخیص نوشته‌های بینگ، بارد و ChatGPT وجود ندارد و ابزارهای فعلی برای ChatGPT 3.5 طراحی شده‌اند.

او همچنین به این موضوع اشاره کرد که این ابزارها به راحتی شکست می‌خورند و نرخ اشتباهات آنها بیشتر از ۱۰ درصد است. علاوه بر این، خود ChatGPT نیز نمی‌تواند ارزیابی کند که متن مورد نظر شما توسط هوش مصنوعی نوشته شده یا خیر.

در مصاحبه سایت Ars Technica با GPTZero، به نظر می‌رسد که این شرکت از اخبار و نارضایتی کاربران آگاه است و قصد دارد تا با جدایی از ابزار تشخیص متون Vanilla روی پروژه‌ای عجیب کار کند.
او در ادامه گفت:

در مقایسه با ابزارهای تشخیص دهنده مانند: Turn-it-in، ما سعی داریم تا از ساخت چنین سرویس‌هایی فاصله بگیریم. نسخه بعدی GPT Zero ابزار تشخیص متون نخواهد بود و تنها به نشانه گذاری متونی که توسط انسان و یا هوش مصنوعی نوشته شده بسنده خواهد کرد تا به لطف معلم و دانش آموز، هوش مصنوعی تکامل یابد.

در ادامه، نویسنده این وبسایت از مدیر GPTZero پرسید که نظر او درباره استفاده از GPTZero برای متهم کردن دانش آموزان در آکادمی‌ها چیست و او گفت:

ما نمی‌خواهیم مردم از ابزار ما برای تنبیه کردن فرزندانشان استفاده کنند. در عوض، بهتر است تا در حوزه آموزش، اتکا به چنین ابزارهایی در بین معلمانی که از هوش مصنوعی استقبال می‌کنند و یا نسبت به آن‌ها علاقه‌ای نشان نمی‌دهند کاهش یابد. ما باید فناوری و ابزارهای خود را برای جوامع عرضه کنیم تا با بازخوردهای آن‌ها مواجه شویم و متوجه شویم که وضعیت در چه حال است.

با وجود اینکه مشکلات زیادی حول موضوع ابزارهای تشخیص متون مطرح شده و گریبان گیر کاربران است، اما GPTZero همچنان با بالیدن به عرضه این ابزار برای معلمان به فعالیت خود ادامه می‌دهد و با افتخار، فهرست دانشگاه‌هایی را که از این ابزار استفاده می‌کنند را تبلیغ می‌کند.

علاوه بر این، تفاوت عجیبی بین هدف مشخص شده Tian به منظور عدم تنبیه دانش آموزان و خواسته او برای کسب درآمد با اختراعش وجود دارد. اما هرهدفی که باشد، استفاده از این ابزارها، تاثیر فاجعه باری را روی دانش آموزان می‌گذارد.

یکی از اخباری که در چند روز گذشته در آمریکا مطرح شد و بازتاب گسترده‌ای را حول ابزارهای تشخیص متون داشت، متهم شدن یک دانش آموز به دلیل تقلب بود که براساس ابزار تشخیص متن مشخص شده بود. سپس، او مدرکی از آخرین تاریخچه جستجوهای خود منتشر کرد که اگرچه توانست بی گناهی خود را ثابت کند، اما استرس وارد شده به دانش آموز برای دفاع از خود موجب شد تا به او حمله عصبی وارد شود.

نوشته های هوش مصنوعی غیر قابل تشخیص هستند و ممکن است این وضعیت تا بعدها ادامه یابد

با مواجه شدن با نرخ بالای پاسخ‌های مثبت و غلط و همچنین درنظر گرفتن درصدهای بالا برای گویندگان و نویسندگان غیر انگلیسی، واضح است که علم تشخیص متون هوش مصنوعی، از خطا ناپذیری فاصله درازی دارد و این فاصله به این زودی‌ها کوتاه نخواهد شد. انسان‌ها می‌توانند همانند ماشین بنویسند و این حالت برای هوش مصنوعی نیز صدق می‌کند.

هوش مصنوعی اینجا است تا بماند و اگر به شکل هوشمندانه‌ای مورد استفاده قرار بگیرد، می‌تواند در زمینه‌های مختلفی پیشرفت کند. اگر معلم در حوزه‌ای که دانش آموز درباره آن می‌نویسد تخصص داشته باشد، می‌تواند با مطرح کردن سوال دانش او را بسنجد و ارزیابی کند که تا چه حد درباره موضوعی که درباره آن نوشته می‌فهمد.

نوشتن تنها نمایش و ثابت کردن دانش نیست، بلکه بخشی از آن به نمایان کردن شهرت فرد مربوط می‌شود؛ از اینرو، اگر نویسنده‌ای نتواند برای هر واقعیتی که در متن خود به آن اشاره کرده بایستد و از خود دفاع کند، از هوش مصنوعی و مهارت‌های خود به درستی بهره نبرده است.