دستیار گوگل به زودی به کمک WaveNet، یک سیستم جدید text-to-speech(یا تبدیل متن به گفتار) که توسط شاخهی DeepMind شرکت گوگل ساخته شده است بسیار طبیعیتر به نظر خواهد آمد.
سیستم WaveNet با سیستم سنتی Concatenative TTS که از یک پایگاه بزرگ از صداهای از پیش ضبط شده توسط با صدای تنها یک گوینده بود تفاوت دارد و با سیستم Parametric TTS که از صدایی کامپیوتری استفاده میکند که میتواند امواج موجیشکل مستقلی با استفاده از ۱۶۰۰۰ نمونه در ثانیه ایجاد کند نیز متفاوت است.
سیستم WaveNet از پایگاه دادهی بزرگی از نمونههای صدا استفاده میکند و بیش از ۱۲ ماه است که برای تشخیص این که کدام تن صدا بعد از دیگری میآید و تشخیص حقیقی بودن شکل امواج آموزش داده شده است.
صحبتهای فنی زیادی در این باره وجود دارد که میتوانید آن ها را در سایت deepmind بخوانید و برای شنیدن نمونه صداها هم میتوانید به سایت gsmarena مراجعه کنید.
سیستم WaveNet در حال حاضر با زبان انگلیسی آمریکایی و ژاپنی کار شده است اما انتظار میورد که گوگل در حال کار روی طبیعیتر کردن سایر زبانها هم باشد.
برای گروه DeepMind تنها ۱۲ ماه طول کشید تا WaveNet را ایجاد کنند و آن را برای استفادهی گسترده با سرعتی قابلقبول بهینه سازی کنند، پس فقط تصور کنید که این سیستم تا ۱۲ ماه دیگر چه کارهای دیگری از دستش بر میآید.
نظرات