ما انسانها وقتی در یک محفل و یا جمعیت هستیم، اغلب به مشکل تشخیص صدا بر میخوریم. تصور کنید برای یک میکروفون چقدر سخت است که صداهای مختلف را از هم تشخیص دهد. این مسئله زمانی مشاهده میشود که به یک اسپیکر هوشمند دستور العملهایی در محلهای شلوغ یا دستههای خانگی داده شود.
اکنون بنظر میرسد که انسانها در حال از دست دادن برتری خود مبنی بر تشخیص گفتار میباشند. تکنولوژی جدید گوگل به هوش مصنوعی خود این قابلیت را میدهد که صداهای مختلفی را که بطور همزمان بیان میشوند، تشخیص دهد.
این توسعهی پیشگام در زمینه تشخیص گفتار به دستایاران هوشمند بر پایه هوش مصنوعی این امکان را میدهد که یک صدای خاص را در جمعیت تشخیص دهد و بخوبی آن را درک کند.
چند روز پیش بود که محققان گوگل از این تکنولوژی روزمره پرده برداشتند. تیم گوگل مدت زیادی است که بر روی جدا کردن منابع صدا مانند گفتار در فیلم کار میکنند، کاری که برای سیستمهای خودکار سخت میباشد.
سیستم جدید نشخیص گفتار گوگل چگونه کار میکند؟
این سیستم از مدل تفکیک گفتار صوتی و تصویری استفاده میکند که وقتی افراد صحبت میکنند، از طریق نظارت بر چهره آنها، صدای آنها را تشخیص دهد. شبکه عصبی این مدل جوری برنامه ریزی شده است که صداها را از افراد مختلف از طریق ‘دستههای جعلی’ که توسط محققان ایجاد شده است انتخاب کند.
صداهای پس زمینه در این دستههای جعلی ترکیب شده تا به هوش مصنوعی یاد بدهد که چگونه آهنگهای صوتی را توسط جداسازی صداهای مختلف، شناسایی کند. نتایج بدست آمده شگفت آور بود. نه تنها این سیستم اصوات را بلکه توانست گفتار ۲ فرد را که همزمان صحبت میکنند جداسازی کند.
با این حال، پیامدهای حریم خصوصی سیستم تشخیص گفتار گوگل میتواند کمی ناخوشایند باشد. اگر این تکنولوژی در یک مقیاس بزرگ اجرا شود، میتواند توسط برنامههای ترد بصورت جاسوس مورد استفاده قرار بگیرد و گفت و گوی افراد را گوش کند.
نظرات