محققان راهی برای حرف زدن عکس‌ها و ویدیوها پیدا کردند

8 مهر 1402 ساعت 10:48

ضبط صدا از یک تصویر شاید فقط در داستان‌های علمی تخیلی رخ بدهد، اما یک دانشمند راهی برای انجام این کار با استفاده هوش مصنوعی پیدا کرده است.

پروفسور Kevin Fu استاد مهندسی برق و کامپیوتر از دانشگاه نورث ایسترن موفق به توسعه یک ابزار یادگیری ماشین به نام Side Eye شده که می تواند تصاویر را به حرف زدن وادارد.

او و همکارانش با بکار بردن Side Eye روی یک تصویر ثابت، می‌توانند جنسیت یک اسپیکر را در اتاقی که عکس گرفته شده تعیین کنند. آنها همچنین می‌توانند از این ابزار برای ویدیوهای بی‌صدا استفاده کنند.

فو گفته است: «تصور کنید فردی ویدیوی در تیک تاک منتشر کرده که کاملا بی صدا است. آیا کنجکاو شده‌اید بدانید که این ویدیو واقعا چه می‌گوید؟»

Side Eye همچنین از فناوری تثبیت‌کننده تصویر که در اکثر دوربین‌های گوشی‌های هوشمند وجود دارد استفاده می‌کند. دوربین‌ گوشی‌های هوشمند دارای فنرهایی هستند که مانع از لرزش آن می‌شوند. این فنرها با حسگرها و یک آهنربای الکتریکی ترکیب می‌شوند تا لنز را در جهت مخالف هر لرزشی فشار دهند تا تصویر را تثبیت کنند.

هنگامی که فردی در زمان گرفتن عکس کنار لنز دوربین صحبت می‌کند، لرزش های کوچکی در فنرها ایجاد می‌شود و نور به نحو ظریفی خم می‌شود. اگرچه استخراج فرکانس‌های صوتی از این ارتعاشات تاحدودی غیرممکن است، اما به خاطر نوع شاتری که اکثر دوربین‌ها استفاده می‌کنند، این کار شدنی است.

Side Eye می‌تواند کاربردهای مثبتی داشته باشد و می‌توان از آن به‌عنوان نوعی شاهد دیجیتال برای تحقیق در مورد جرایم استفاده کرد. البته اگر نسخه پیشرفته‌تری از آن به دست افراد تبهکار بیفتد، ممکن است تبدیل به یک امنیت سایبری شود.