متا دیروز مدل هوش مصنوعی چندزبانه SeamlessM4T را معرفی کرد. این مدل قادر است متن و صدا را پردازش کند و کارهایی مثل ترجمه متن به گفتار، گفتار به نوشتار، گفتار به گفتار و متن به متن را برای ۱۰۰ زبان مختلف انجام دهد. هدف متا از معرفی این مدل، کمک به ارتباط موثرتر کسانی است که به زبانهای مختلف صحبت میکنند.
مدل SeamlessM4T قابلیتهای زیادی دارد و طبق آنچه که متا در وبسایت خود نوشته است ایم مدل میتواند گفتار را تشخیص دهد و آن را به متن تبدیل کند، همچنین میتواند گفتار را به متن ترجمه کند یا گفتار را به گفتار ترجمه کند. این مدل همچنین قابلیت ترجمه متن به متن و ترجمه متن به گفتار را هم دارد که در هر کدام از آنها از ۱۰۰ زبان پشتیبانی میکند.
متا توضیح دقیقی درباره اینکه دادههای آموزشی این مدل را از کجا تهیه کرده است نداده است. اما ظاهرا دادههای متنی آن از مجموعه دادههای NLLB و دادههای گفتاری آن از ۴ میلیون ساعت صدای خام از یک مخزن داده به دست آمده است که ۱ میلیون ساعت آن مربوط به زبان انگلیسی بوده است.
متا گفته است که SeamlessM4T یک مدل هوش مصنوعی یکپارچه به جای چندین مدل ترکیبی است و همین ویژگی باعث شده تا خطاهای آن کمتر باشد و کارایی ترجمه افزایش یابد.
متا اطلاعات بیشتر درباره نحوه عملکرد SeamlessM4T را در وبسایت خود منتشر کرده است که میتوانید به آن مراجعه کنید. گفتنی است متا همچنین قصد دارند برای بهینهسازی اجرای مستقیم مدلهای زبانی بزرگ Llama 2 متا روی دستگاهها با کوالکام همکاری کنند.
اجرای مستقیم هوش مصنوعی روی دستگاه، نیاز به خدمات ابری را از بین خواهد برد. همچنین با اجرای مدلهای هوش مصنوعی مولد مثل Llama 2 روی گوشیهای هوشمند، کامپیوترها، هدستهای VR/AR و خودروها، توسعهدهندگان میتوانند تجربیات شخصیسازی شدهتری را در اختیار کاربران قرار دهند و در هزینههای ابری صرفهجویی کنند.
هدف از این همکاری مشترک، ارائه هوش مصنوعی مبتنی بر مدل زبانی Llama 2 روی دستگاههای مختلف است و توسعهدهندگان را قادر خواهد ساخت تا اپلیکیشنهای هوش مصنوعی نوآورانهتری ارائه کنند. شرکتها نیز خواهند توانست از این تجربیات برای ساخت دستیارهای مجازی هوشمند، پلتفرمهای تولید محتوا و برنامههای سرگرمی استفاده کنند. یکی از مزایای هوش مصنوعی روی دستگاه، امکان استفاده از آن در مناطقی است که دسترسی به اینترنت وجود ندارد.
نظرات