آیا هوش مصنوعی به کتاب های صوتی نیز رحم نمی‌کند؟

۲۴ خرداد ۱۴۰۲ - 10:00

شررایط کتاب صوتی در دوره همه‌گیری هوش مصنوعی

روزی دیگر در استودیوی ضبط کتاب های صوتی آغاز شد، روزیکه دو تن از گویندگان فعال در این حوزه با نام‌های Leah Allers و Craig Hinkle در تیم Nashville بر سر موضوعاتی مانند: نگرانی بابت صدای معده حین ضبط صدا، تاکید بر آوای کلمات و بروز جزییات مکالمه‌ی دو تن از شخصیت‌های کتاب باهم صحبت می‌کنند؛ موضوعاتی که به هیچ عنوان برای هوش مصنوعی مهم نیستند و دغدغه‌ای برای آن ندارد.‌

استودیوی نپ در ساختمان Nashville واقع شده است. همان مکانی که تیلور سوییفت آلبومی با نام خود در آنجا ضبط کرد. در همین حال، بوی قهوه در مغز غوغا می‌کند و Hinkle و Allers در حین گویندگی چشم خود را از صفحه نمایش آیپد به مانیتور بزرگی که در استودیو قرار دارد برمی‌گردانند. در این بین، Allers به Hinkle می‌گوید که قصد دارد روی سوالات مطرح شده در کتاب احساس بیشتری بگذارد و آنها باری دیگر فصل کتاب را از نو شروع می‌کنند.

کتاب‌های صوتی شاهد روند رو به رشدی هستند و بنابر تحقیقات، این حوزه کسب و کار تا سال ۲۰۳۰ به درآمدی بالغ بر ۳۳.۵ میلیارد دلار خواهد رسید، درحالیکه درآمد این حوزه در سال ۲۰۲۱ مبلغ ۴.۲ میلیارد دلار تعیین شده بود.

در سال ۲۰۲۳ و شگفتی‌های ایجاد شده پیرامون هوش مصنوعی، نگرانی‌های افراد فعال در حوزه‌های مختلف افزایش یافت. به عنوان نمونه، ChatGPT توانایی نوشتن تاییده بیمه نامه تا ساخت پروفایل برای کاربران برنامه‌های دوست‌یابی را دارد و حتی پلتفرم‌های هوش مصنوعی مانند: Dalle-E و Lensa آثاری را تولید می‌کنند که به ذهن هیچ هنرمندی نمی‌رسد و همین موجب در خطر افتادن مشاغل خواهد شد.

۶ روش برای مقابله با هوش مصنوعی در زمینه نویسندگی

در زمینه کتاب‌های صوتی نیز، کمپانی‌های شناخته شده‌ای مانند: گوگل و اپل مدت‌ها است که در زمینه تولید ابزارهای مبتنی بر هوش مصنوعی مشغول هستند و بدون در نظر گرفتن نیروهای انسانی، ابزارهای خود را به زمینه‌های مختلف تزریق می‌کنند.

در سال گذشته، گوگل از سرویس جدید خود برای ناشران ۶ کشور جهان مانند: آمریکا و کانادا رونمایی کرد. هر یک از هوش مصنوعی‌های گوینده گوگل با نام‌هایی مرتبط به کشور مقصد مشخص شده‌اند: همانند Archie که نامی بریتانیایی است و حتی Santiago که نامی پرآوازه در کشور اسپانیا است.

در این بین، اپل نیز از هوش مصنوعی گوینده خود با نام Madison و Jackson پرده برداشت که نویسندگان و ناشران مستقل می‌توانند با تعیین سبک نوشته، نوع گویش هوش مصنوعی را تغییر دهند.

Tanya Eby، یکی از گویندگان فعال در زمینه کتاب‌های صوتی که در ۲۱ سال گذشته، در تولید ۱۰۰۰ کتاب صوتی دست داشته، نسبت به طلوع کور کننده هوش مصنوعی ابراز نگرانی کرد و گفت:

مطمئن نیستم که بعد از ۵ سال بتوانم مثل امروز، گوینده‌ای تمام وقت باشم.

گویندگانی مثل Eby، که در پروژه‌های بسیاری همکاری کرده‌اند، صراحتا اعلام می‌کنند که انسانیت تنها دلیلی است که می‌تواند به این حوزه رنگ بدهد. گویندگان برای سبک نوشتاری کتاب‌ها، شخصیت‌ها و حالات مختلف تصمیم می‌گیرند تا با چه حالتی گویندگی کنند و روش‌های آنها بازتاب خود را روی مخاطب، محتوا و اتمسفر دنیای کتاب خواهد گذاشت.

نشانه هایی که غیرقابل کنترل بودن هوش مصنوعی را اثبات می کنند

گویندگان می‌توانند معنای واقعی ارتباط عاطفی را در گوش شنونده نجوا کنند؛ قابلیتی که در حال حاضر، کمتر هوش مصنوعی می‌تواند آنرا به شنونده القا کند. در این بین، اگرچه می‌توان نحوه گویش هوش مصنوعی را براساس متن تغییر داد، اما تنها یک گوینده حرفه‌ای می‌تواند در بروز احساسات، طبیعی عمل کند.

Kathleen Li، یکی از گویندگان اهل تگزاس در رابطه با این موضوع گفت:

زمانیکه یک شخصیت به دلیل مرگ پدرش به هق هق گریه می‌افتد، من موظف هستم تا در ریختن تمامی اشک‌های او سهیم باشم و حس او را به شنونده منتقل کنم.

زمانیکه پول هم گوینده می شود

طرفداران کتاب‌های صوتی ممکن است لحظات سختی را برای درک اینکه چرا باید صدای هوش مصنوعی را به جای انسان بشنوند داشته باشند، اما برای استودیو‌های کوچک، زمان و هزینه اولویت بالاتری نسبت به کیفیت کار دارد. متاسفانه، کتاب‌های صوتی درآمد چندانی برای بخش مطبوعات دانشگاه میشیگان ندارند و با اینحال، بیش از ۱۰۰ کتاب صوتی توسط پژوهشگران برای پژوهشگران و دانش اموزان تولید می‌شود.

در این بین، هزینه استخدام گویندگان و زمان صرف شده برای تولید محتوای صوتی نیز در اولویت قرار دارد. استخدام گوینده برای تکمیل پروژه یک کتاب، هزینه‌ای بیش از ۶۰۰۰ دلار را به همراه دارد که دانشگاه شاید بتواند از طریق آن به درآمد چند صد دلاری برسد. به علاوه، فرایند خسته کننده گویندگی کتاب می‌تواند تکمیل یک ساعت از متون کتاب را به ۶ ساعت بکشاند که برای برخی افراد، تکرار کردن یک متن برای دفعات مکرر، دیوانه کننده است.

Charles Watkinson، مدیر مطبوعات دانشگاه میشیگان و یکی از کتابداران بخش نشریه این دانشگاه به این موضوع اشاره کرد که اگر ناشران، کتاب‌های صوتی پرفروش نداشته باشند، سیستم نقدینگی آنها با مشکل مواجه می‌شود و نمی‌توانند در پروژه‌های جدید هزینه کنند. زمان و هزینه از اولویت‌های مهم نویسندگان و ناشران کوچک است و هوش مصنوعی می‌تواند این رویه را تغییر دهد.

موتور محرکه هوش مصنوعی کدها و کارت‌های گرافیکی نیستند، بلکه پول است!

دو سال گذشته، گوگل برنامه آزمایشی خود را برای دانشگاه میشیگان ارائه داد و نتیجه آن با تولید ۱۰۰ کتاب صوتی همراه شد. بااینحال، Watkinson تاکید کرد که به دلیل کنترل کیفیت هوش مصنوعی، پروفسورهایی که از این ابزار استفاده کردند، دانش آموزان را برای بررسی مشکلات و هماهنگ کردن متون و صدا بکار می‌گیرند. از اینرو، بااینکه برای یافتن اشتباهات هوش مصنوعی زمان نیاز است، اما گذراندن مرحله دشوار خواندن کتاب پشت سر گذاشته شده است.

در آخر نیز، بررسی‌های انجام شده و نمونه صدا ثابت کرد که صدای هوش مصنوعی تنها بهتر از یک Screen reader عمل میکند و برای افرادیکه دچار ضعف بینایی حاد یا شدید هستند، هوش مصنوعی می‌تواند چنین شکاف‌هایی را پر کند. در سایر موارد نیز، بسیاری از کاربران از نمونه صوتی کتاب‌های خود لذت می‌برند و برای زمانی کاربردی هستند که شخص کتاب خود را همراه نداشته باشد و از نمونه صوتی استفاده کند.

طلوع اصوات دیجیتالی

در کنار نام‌های گوگل و اپل، کمپانی‌های کوچک دیگری نیز فعالیت تخصصی خود را در زمینه هوش مصنوعی آغاز کرده‌اند.

Deepzen، یکی از شرکت‌های فعال در این حوزه محسوب می‌شود که در سال ۲۰۱۸ تاسیس شد و از فیلم Her که در سال ۲۰۱۳ اکران شد الهام گرفته است. اگر از موضوع این فیلم آگاه نیستید، Her درباره نویسنده‌ای است که وارد رابطه احساسی با دستیار هوش مصنوعی خود می‌شود. Deepzen، سیستمی از پردازش زبان طبیعی را توسعه داده که از متون الهام می‌گیرد و آنها را همانند گوینده بازگو می‌کند.

یکی از چالش‌های بزرگ پلتفرم‌های تولید هوش مصنوعی گوینده این است که تنها به بازخوانی متن بسنده نکند، بلکه بتواند محتوای کتاب را همراه با آوا و صدای متمایز کننده‌ای بخواند. DeepZen، به مشتریان خود اجازه می‌دهد تا متون خود را آپلود کنند و براساس قیمت، سرویس موردنظر خود را از بین اتوماتیک و مدیریت شده انتخاب کنند. به لطف DeepZen، هر ۲ گزینه با کنترل کیفیت مانند: بررسی تلفظ کلمات همراه هستند که مسئولیت آنها بر عهده متخصصان این کمپانی است.

چت بات ChatGPT چطور روی حوزه نویسندگی تاثیر می‌گذارد؟

هزینه گویندگی هوش مصنوعی در یک ساعت کتاب خواندن، برابر با ۶۹ دلار است، درحالیکه با انتخاب گزینه‌های مختلف، این مبلغ به ۱۲۹ دلار خواهد رسید. DeepZen، در طی چند سال فعالیت خود بیش از ۳۰۰ کتاب صوتی را تولید کرده است و فرایند تکامل این ابزار همچنان ادامه دارد.

در جهانی به بزرگی یک گردو، گویندگانی نیز نگرش مثبتی نسبت به هوش مصنوعی دارند و به این موضوع اشاره می‌کنند که هوش مصنوعی می‌تواند صدای آنها را حفظ کند و حتی در صورت مرگ، میراث جاویدان آنها در تولید محتوا مورد استفاده قرار بگیرد. گوینده‌ای به نام: Edward Hermann که در سال ۲۰۱۴ فوت کرد، به دنبال ثبت صدای خود بود و صدای او توسط DeepZen ثبت و مورد استفاده قرار گرفت.

DeepZen، همچنین به دنبال آن است تا صدای گویندگان را برای سایر زبان‌ها نیز مورد استفاده قرار دهد و بانک صدای گسترده‌ای را در اختیار خود داشته باشد.

ساعت بیکاری

بااینکه DeepZen در چند سال گذشته، پیشرفت قابل توجهی را در حوزه هوش مصنوعی ایجاد کرده، اما این بدان معنا نیست که گویندگان تا چندسال آینده بیکار خواهند شد.

John Behrens، صاحب نشریه صوتی Nashaville که با چندین هوش مصنوعی برای تولید کتاب‌های صوتی همکاری کرده، اظهار کرد که کتاب‌های تهیه شده، به شدت به کنترل کیفی نیاز خواهند داشت و در حال حاضر، با مشکلاتی مانند: عدم تلفظ صحیح آیات انجیل و مطرح کردن سوالات مواجه هستند. به علاوه، مشکلات هوش مصنوعی منجر می‌شود تا دوباره به سمت استخدام نیروهای انسانی برویم که در صرفه جویی وقت کاربردی هستند و عملکرد آنها در تولید کتاب‌های صوتی پرفروش و محبوب، جایگاه نشریه و درآمد را حفظ خواهد کرد.

پس از این گفتگو، Allers و Hinkle، کمی استراحت کردند و درباره هوش مصنوعی به صحبت پرداختند. برای اولین بار است که Allers در تولید کتاب‌های صوتی همکاری می‌کند و او بیشتر وقت خود را صرف صداگذاری شخصیت فیلم‌ها و سریال‌های نتفلیکس گذرانده است.

در آخر Hinkle حس خود را نسبت به هوش مصنوعی ابراز کرد و گفت: