در ایتالیا ۱۲۰ دانش آموز دبیرستان به حل مشکلی که قرنهاست که بیراهحل مانده بود، کمک کردند: چگونه محققان دسترسی به آرشیو مخفی واتیکان پیدا کنند، مجموعه وسیعی از اسناد که جزئیات فعالیتهای واتیکان تا قرن هشتم در آن موجود است.
این تجربه در درخواستنامهی کالج باید بسیار به درد بخور باشد.
قفسه های بایگانی مخفی واتیکان حدود ۸۵ کیلومتر (۵۳ مایل) طول دارد و ۳۵۰۰۰ جلد در آن دستهبندی شده است. اما اسنادی که محققان اسکن و آپلود کرده اند، کمتر از یک اینچ از این اسناد است. اسناد رونویسی قابل جستجو از طریق کامپیوتر؟ حتی از آن هم نادرتر. به دلیل سخت بودن این کار است که واتیکان مایل نیست اطلاعات را به اشتراک بگذارد. به هر حال – حتی امروزه، نرم افزار نویسهخوان نوری (OCR) هم به سادگی نمیتواند براحتی از پس دستنوشته برآیند.
بنابراین اگر محققان بخواهند اسناد را مشاهده کنند، آنها هیچ گزینهای ندارند، مگر اینکه شخصا بایگانی مراجعه کنند (فرض بر این است که واتیکان درخواست آنها برای دسترسی را تایید کند).
در حال حاضر، یک تیم از محققان دانشگاه Roma Tre یک پروژه تحقیقاتی برای حل این مشکل را طراحی کردهاند . و آنها از هوش مصنوعی (AI) برای رونویسی اسناد استفاده می کنند. تحقیقات آنها در ERCIM News، مجلهی کنسرسیوم تحقیقاتی اروپا برای رایانه منتشر شده است.
مشکل: رایانه ها در خواندن نوشتههای انسانی بهترین نیستند. بنابراین اولین قدم در پروژهCodice Ratio استفاده ازدانش آموزان به منظور آموزش آنها بود. با استفاده از پلت فرم آنلاین ساخته شده توسط محققان، دانش آموزان در مورد این که آیا دست نویس نمونه از دو صفحه از ثبت واتیکان (مجموعه ای از نامهها به و از پاپ) متناسب با آن چه که توسط paleographer (کسی که در رشتهی شناسایی دست خط قدیمی تحصیل کرده است)شناسایی شده است، “رای دادند”.
به عنوان مثال، یک دانش آموز ممکن است یک نامه دست نویس با برچسب گروهM را ببیند، همراه با مجموعه ای از برچسبهای تایید شده توسط متخصصین، مقایسه کند و بعد به M بودن دست نوشته رای دهد. اگر دانش آموز تصور می کرد که دو نمونه M به اندازه کافی نزدیک شدهاند، آنها “بله” رای دادند. اگر نه، “نه” ، به اندازه کافی “بله” رای داده میشود و دست نویس یک برچسب دریافت میکرد. ۱۲۰ دانش آموز تنها چند ساعت برای کار در کل مجموعه آموزش وقت گذاشتند.
اما هوش مصنوعی نیاز به آموزش بیشتری داشت. بعد، محققان به هوش مصنوعی خود شناسایی برچسبهای دست نوشته با استفاده از روش آنها به نام ” jigsaw segmentation” را یاد دادند.
به جای نگاه کردن به دست خط به عنوان یک سری از کلمات، و یا حتی ترکیبی از حروف، هوش مصنوعی به دنبال شاخص بود. به عنوان مثال، یک دستنویس M به نظر نمی رسد یک کاراکتر باشد – ممکن است که سه شاخص باشد که به یکدیگر نزدیک اند. بر اساس آنچه که از مجموعه دادههای تولید شده توسط دانش آموزان بالا می دانست، این شاخص می تواند M باشد یا شاید III.
محققان برای کمک به “خواندن” این شاخصها توسط هوش مصنوعی ، مجموعه داده ای بالغ بر ۱٫۵ میلیون کلمه در زبان لاتین، زبان که در آن متون نوشته شده است، را به هوش مصنوعی. یاد دادند. سپس، زمانی که این شاخضها را میدید، می توانستند مشخص کنند که احتمالا M است، و نه III، زیرا این کلمه در لاتین ظاهر نمی شود.
هنگامی که محققان هوش مصنوعی خود را با استفاده از چهار صفحه ثبت واتیکان آزمایش کردند، به درستی ۶۵ درصد از کلمات را رونویسی کرد. هرچند که نزدیک به کمال نیست، اما بی فایده نیز نیست. بر طبق پژوهش محققان، این رونوشت ها به اندازه کافی دقیق هستند تا برای پیلوگرافها “پایهی محکمی” فراهم کند که بتوانند روند رونویسی را سریعتر انجام دهند. آنها در حال کار بر روی بهبود سیستم هستند.
این امر مفید خواهد بود، زیرا واتیکان فقط دسترسی به چیزی مانند سه سند در روز را فراهم می کند. بنابراین ممکن است یک محقق فکر کند که می دانند چه اسنادی می خواهد ولی وقتی از واتیکان دیدن کرد، پی میبرد که این مدارک همان اسناد مورد نیاز نیست.
اگر همه چیز به خوبی رونویسی شود، شاید محققان در سرتاسر جهان در نهایت بتوانند کل مجموعه را برای یک کلمه کلیدی مانند میکل آنژجستجو کنند و ببینید چه اسنادی از آن استفاده کرده و سپس برای دسترسی به آنها درخواست کنند. یا شاید بتوانند اطلاعاتی را که از بایگانی مخفی واتیکان نیاز دارند، بدون سفر به شهر واتیکان دریافت کنند.
نظرات