تکنولوژی جدید هوش مصنوعی گوگل قادر است صداهای مختلف را در بین جمعیت تشخیص دهد

27 فروردین 1397 ساعت 18:35

ما انسان‌ها وقتی در یک محفل و یا جمعیت هستیم، اغلب به مشکل تشخیص صدا بر میخوریم. تصور کنید برای یک میکروفون چقدر سخت است که صداهای مختلف را از هم تشخیص دهد. این مسئله زمانی مشاهده می‌شود که به یک اسپیکر هوشمند دستور العمل‌هایی در محل‌های شلوغ یا دسته‌های خانگی داده شود.

اکنون بنظر می‌رسد که انسان‌ها در حال از دست دادن برتری خود مبنی بر تشخیص گفتار می‌باشند. تکنولوژی جدید گوگل به هوش مصنوعی خود این قابلیت را می‌دهد که صداهای مختلفی را که بطور همزمان بیان می‌شوند، تشخیص دهد.

این توسعه‌ی پیشگام در زمینه تشخیص گفتار به دستایاران هوشمند بر پایه هوش مصنوعی این امکان را می‌دهد که یک صدای خاص را در جمعیت تشخیص دهد و بخوبی آن را درک کند.

چند روز پیش بود که محققان گوگل از این تکنولوژی روزمره پرده برداشتند. تیم گوگل مدت زیادی است که بر روی جدا کردن منابع صدا مانند گفتار در فیلم کار می‌کنند، کاری که برای سیستم‌های خودکار سخت می‌باشد.

سیستم جدید نشخیص گفتار گوگل چگونه کار می‌کند؟

این سیستم از مدل تفکیک گفتار صوتی و تصویری استفاده می‌کند که وقتی افراد صحبت می‌کنند، از طریق نظارت بر چهره آن‌ها، صدای آن‌ها را تشخیص دهد. شبکه عصبی این مدل جوری برنامه ریزی شده است که صداها را از افراد مختلف از طریق ‘دسته‌های جعلی’ که توسط محققان ایجاد شده است انتخاب کند.

صداهای پس زمینه در این دسته‌های جعلی ترکیب شده تا به هوش مصنوعی یاد بدهد که چگونه آهنگ‌های صوتی را توسط جداسازی صداهای مختلف، شناسایی کند. نتایج بدست آمده شگفت آور بود. نه تنها این سیستم اصوات را بلکه توانست گفتار ۲ فرد را که همزمان صحبت می‌کنند جداسازی کند.

با این حال، پیامدهای حریم خصوصی سیستم تشخیص گفتار گوگل می‌تواند کمی ناخوشایند باشد. اگر این تکنولوژی در یک مقیاس بزرگ اجرا شود، می‌تواند توسط برنامه‌های ترد بصورت جاسوس مورد استفاده قرار بگیرد و گفت و گوی افراد را گوش کند.