علیبابا با معرفی مدل Qwen 2.5-Max به رقابت با DeepSeek پرداخته است. این مدل جدید با استفاده از معماری یادگیری ترکیب متخصصان (MoE) از بیش از ۲۰ تریلیون توکن در مرحله پیشآموزش بهره برده و با کمک تکنیکهایی مانند تنظیم دقیق نظارتشده (SFT) و یادگیری پیشرفته از بازخورد انسانی (RLHF) بهبود یافته است.
با عرضه رابط برنامهنویسی کاربردی (API) آن از طریق فضای ابری علیبابا و امکان آزمایش در بستر Qwen Chat، این شرکت از توسعهدهندگان و محققان دعوت کرده است تا از پیشرفتهای جدید آن استفاده کنند.
در مقایسه با برخی از پیشرفتهترین مدلهای هوش مصنوعی در طیف گستردهای از بنچمارکها، عملکرد Qwen 2.5-Max امیدوارکننده به نظر میرسد. این مدل در آزمونهایی مانند Arena-Hard، LiveBench، LiveCodeBench و GPQA-Diamond عملکرد بهتری نسبت به مدل DeepSeek V3 داشته و در ارزیابیهای دیگر مانند MMLU-Pro نیز نتایج چشمگیری به دست آورده است.
مدل instruct که برای کارهایی مانند مکالمه و کدنویسی طراحی شده، مستقیماً با مدلهای پیشرو مانند GPT-4o Claude-3.5-Sonnet و DeepSeek V3 رقابت میکند و در چندین حوزه توانسته است از رقبای خود پیشی بگیرد.
مقایسه مدلهای پایه این مدلها نیز نتایج مثبتی را نشان میدهد. اگرچه مدلهای اختصاصی مانند GPT-4o و Claude-3.5-Sonnet به دلیل محدودیتهای دسترسی ارزیابی نشدهاند، اما Qwen 2.5-Max در مقایسه با گزینههای مطرحی مانند DeepSeek V3، Llama-3.1-405B و Qwen2.5-72B عملکرد قابلتوجهی داشته است.
برای تسهیل دسترسی به این مدل، علیبابا آن را با پلتفرم Qwen Chat ادغام کرده است و کاربران میتوانند از قابلیتهای آن در جستجو و پردازش پرسشهای پیچیده بهره ببرند. برای توسعهدهندگان، API مدل Qwen 2.5-Max از طریق فضای ابری علیبابا با نام qwen-max-2025-01-25 در دسترس قرار گرفته است و کاربران میتوانند با ایجاد حساب کاربری، فعالسازی سرویس Model Studio و دریافت کلید API، از آن استفاده کنند. این API با اکوسیستم OpenAI نیز سازگار بوده و امکان ادغام آسان آن در پروژههای کنونی را فراهم میکند.
علیبابا با Qwen 2.5-Max نشان داده است که هدفش تنها بهبود عملکرد نیست، بلکه به دنبال ارتقای توانایی تفکر و استدلال این مدلها نیز هست. سنجش دادهها و اندازه این مدل نه تنها پیشرفتهای هوش مصنوعی را نشان میدهد، بلکه تعهد این شرکت به تحقیقات پیشرفته را نیز منعکس میکند.
تیم توسعهدهنده امیدوار است با بهبود روشهای یادگیری پیشرفته، توانایی مدلها را برای حل مسائل پیچیده افزایش دهد. این امر میتواند در برخی کارها، هوش مصنوعی را به سطحی فراتر از تواناییهای انسانی برساند. با پیشرفت روشهای سنجش و توسعه مدلهای Qwen، تأثیرات این تغییرات بر صنعت هوش مصنوعی در سطح جهانی ادامه خواهد یافت.
دیدگاه ها
دیدگاه های این برگه بسته شدهاند