دستیار گوگل به لطف WaveNet طبیعی‌تر جلوه خواهد کرد

۱۸ مهر ۱۳۹۶ - 23:03

دستیار گوگل به زودی به کمک WaveNet، یک سیستم جدید text-to-speech(یا تبدیل متن به گفتار) که توسط شاخه‌ی DeepMind شرکت گوگل ساخته شده است بسیار طبیعی‌تر به نظر خواهد آمد.

سیستم WaveNet با سیستم سنتی Concatenative TTS که از یک پایگاه بزرگ از صداهای از پیش ضبط شده توسط با صدای تنها یک گوینده بود تفاوت دارد و با سیستم Parametric TTS که از صدایی کامپیوتری استفاده می‌کند که می‌تواند امواج موجی‌شکل مستقلی با استفاده از ۱۶۰۰۰ نمونه در ثانیه ایجاد کند نیز متفاوت است.

سیستم WaveNet از پایگاه داده‌ی بزرگی از نمونه‌های صدا استفاده می‌کند و بیش‌ از ۱۲ ماه است که برای تشخیص این که کدام تن صدا بعد از دیگری می‌آید و تشخیص حقیقی بودن شکل امواج آموزش داده شده است.

صحبت‌های فنی زیادی در این باره وجود دارد که می‌توانید آن ها را در سایت deepmind بخوانید و برای شنیدن نمونه‌ صداها هم می‌توانید به سایت gsmarena مراجعه کنید.

سیستم WaveNet در حال حاضر با زبان انگلیسی آمریکایی و ژاپنی کار شده است اما انتظار می‌ورد که گوگل در حال کار روی طبیعی‌تر کردن سایر زبان‌ها هم باشد.

برای گروه DeepMind تنها ۱۲ ماه طول کشید تا WaveNet را ایجاد کنند و آن را برای استفاده‌ی گسترده با سرعتی قابل‌قبول بهینه سازی کنند، پس فقط تصور کنید که این سیستم تا ۱۲ ماه دیگر چه کارهای دیگری از دستش بر می‌آید.