ابداع عینکی برای مکالمه بدون صدا!

پژوهشگران دانشگاه «کرنل» موفق به ساخت عینک‌هایی شده‌اند که ارتباط صوتی بدون کلام را ممکن می‌سازد.

به گزارش جهان مانا به نقل از نیواطلس، پژوهشگران دانشگاه «کرنل» فناوری جدیدی را توسعه داده‌اند که امکان برقراری ارتباط بی‌صدا را از طریق عینک‌های سونار فراهم می‌کند.

این عینک موسوم به EchoSpeech از میکروفون‌ها و بلندگوهای کوچکی برای خواندن کلماتی استفاده می‌کند که به شکل بی‌صدا از گلوی کاربر بیرون می‌آید و به کاربر اجازه می‌دهد تا کارهای مختلف را بدون نیاز به هرگونه ورودی فیزیکی انجام دهد.

اکنون یکی از هیجان‌انگیزترین چشم‌اندازهای این فناوری جدید این است که افراد مبتلا به ناتوانی گفتاری از آن برای گفتگوی بی‌صدا استفاده کنند که سپس این سیستم کلمات را با صدای بلند بیان می‌کند. این عینک همچنین می‌تواند برای کنترل پخش موسیقی در یک کتابخانه یا برای تبدیل گفتار به نوشتار در یک کنسرت پر سر و صدا که صدا به صدا نمی‌رسد، استفاده شود.

این فناوری توسط یک دانشجوی دکترا در دانشگاه کرنل به نام رویدونگ ژانگ(Ruidong Zhang) و از پروژه مشابهی که از هدفون بی‌سیم و مدل‌های قبلی متکی به دوربین استفاده می‌کرد، توسعه داده شده است.

این عینک به گونه‌ای طراحی شده است که ساده باشد و کاربر را با یک دوربین بزرگ یا استفاده از هدفون مواجه نکند.

در عوض، این عینک از سونار(Sonar) به معنی ناوبری و فاصله‌یابی صوتی برای حس کردن حرکات گلو استفاده می‌کند و در عین حال از الگوریتم یادگیری عمیق برای تجزیه و تحلیل پژواک‌ها در لحظه استفاده می‌کند. این کار به سیستم اجازه می‌دهد تا به دقت ۹۵ درصدی در تشخیص کلماتی که بی‌صدا توسط کاربر تلفظ می‌شوند، دست یابد.

سونار یا ناوبری و فاصله‌یابی صوتی در اصل به یک دستگاه ردیاب زیردریایی گفته می‌شود که طرز کار آن استفاده از انتشار امواج صوتی است و علاوه بر ردیابی، معمولاً به منظور ناوبری و ارتباط با دیگر یگان‌های شناور و زیرآبی نیز استفاده می‌شود.

خفاش‌ها به منظور حرکت کردن و تعیین مسیر و شکار حشرات در تاریکی مطلق، یک سامانه با قدمت بیش از ۶۰ میلیون ساله دارند که بر هر سامانه ناوبری که تاکنون به وسیله فناوری تولید شده برتری دارد. آنها با فریاد زدن در فرکانس‌های فراصوت(معمولاً بالای ۲۰ کیلوهرتز) می‌توانند صداهای منعکس‌شده از اشیاء اطرافشان را تشخیص دهند و آنها را به صورت یک «تصویر صوتی» تفسیر کنند. این بسیار موضوع پیچیده‌ای است که آنها می‌توانند در سرعت‌های بالا پرواز کنند و در مسیرشان از همه موانع اجتناب کنند و حتی حشرات کوچک را از فاصله چند متری تشخیص دهند.

بانگ‌ها و صداهای مافوق صوتی که در حنجره خفاش‌ها تولید می‌شود، برای شناسایی محیط اطرافشان و همچنین برای پیدا کردن غذا کارآمد و دقیق است.

دو بلندگوی مینیاتوری در قسمت زیرین قاب عینک و زیر یک لنز نصب شده‌اند، در حالی که دو میکروفون کوچک در زیر لنز دیگر قرار گرفته‌اند. این بلندگوها امواج صوتی غیر قابل شنیدن را منتشر می‌کنند که از دهان کاربر منعکس می‌شود و به سمت میکروفون برمی‌گردد.

این پژواک‌ها در لحظه توسط یک الگوریتم یادگیری عمیق در تلفن هوشمند متصل به صورت بی‌سیم تجزیه و تحلیل می‌شوند. این الگوریتم برای مرتبط ساختن پژواک‌های خاص با حرکات خاص دهان آموزش داده می‌شود.

عینک

این فناوری به گونه‌ای طراحی شده است که نُقلی، کم مصرف و حساس به حریم خصوصی باشد و هیچ داده‌ای از تلفن کاربر خارج نشود. به این ترتیب، هیچ نگرانی در مورد حریم خصوصی وجود نخواهد داشت.

این عینک همچنین دارای حالتی است که نیاز به رو به رو شدن با دوربین یا قرار دادن چیزی در گوش کاربر را برطرف می‌کند. بنابراین نسبت به سایر فناوری‌های تشخیص گفتار بی‌صدا عملی‌تر و دردسترس‌تر است.

به گفته چنگ ژانگ استادیار علوم اطلاعات درد انشگاه کرنل، بیشتر فناوری‌ها در تشخیص بی‌صدای گفتار به مجموعه‌ای از دستورات از پیش تعیین شده محدود می‌شود و کاربر را ملزم می‌کند با دوربین روبرو شود یا آن را بپوشد که نه عملی است و نه امکانپذیر. ما در حال تحقق سونار روی بدن هستیم.

پژوهشگران می‌گویند، این سیستم تنها به چند دقیقه داده آموزشی برای یادگیری الگوهای گفتار کاربر نیاز دارد و پس از آماده شدن برای کار، امواج صوتی را در سراسر صورت کاربر ارسال و دریافت می‌کند و حرکات دهان را حس می‌کند و در عین حال از الگوریتم یادگیری عمیق برای تجزیه و تحلیل پژواک‌ها استفاده می‌کند.

عینک EchoSpeech در حال حاضر قادر است ۳۱ دستور را با دقت ۹۵ درصدی تشخیص دهد.

نسخه فعلی این عینک از آنجایی که از یک دوربین پرقدرت استفاده نمی‌کند، حدود ۱۰ ساعت عمر باتری ارائه می‌دهد و پردازش داده‌ها را به صورت بی‌سیم در تلفن هوشمند کاربر انجام می‌دهد تا همین‌طور کوچک و بدون مزاحمت باقی بماند. این در حالی است که سازندگان آن ادعا می‌کنند که سیستم‌های مبتنی بر دوربین با هر بار شارژ تنها برای حدود ۳۰ دقیقه کار می‌کنند.

تیم آزمایشگاه رابط‌های رایانه‌ای هوشمند برای تعاملات آینده(SciFi) در دانشگاه کرنل در حال بررسی تجاری‌سازی این فناوری با استفاده از برنامه تأمین مالی این دانشگاه است. آنها همچنین به دنبال کاربردهای این عینک هوشمند برای ردیابی حرکات صورت، چشم و بالاتنه هستند.

چنگ ژانگ می‌گوید: ما فکر می‌کنیم عینک یک سکوی محاسبات شخصی مهم برای درک فعالیت‌های انسان در تنظیمات روزمره خواهد بود.

همانطور که اشاره شد، این سیستم برای افرادی که نگرانی‌های مربوط به حفظ حریم خصوصی دارند، هیچ دوربینی را در خود جای نداده است و هیچ اطلاعاتی را به اینترنت ارسال نمی‌کند.

به طور کلی، عینک‌های سوناری که پژوهشگران دانشگاه کرنل ساخته‌اند، یک پیشرفت مهم در فناوری تشخیص گفتار بی‌صدا است. این عینک با توانایی تشخیص طیف گسترده‌ای از کلمات و عبارات می‌تواند نحوه تعامل ما با تکنولوژی و یکدیگر را متحول کند.

پژوهشگران این دانشگاه در حال حاضر روی تجاری‌سازی این فناوری کار می‌کنند.

رویدونگ ژانگ می‌گوید: این فناوری برای افرادی که نمی‌توانند صحبت کنند، گفتار بی‌صدا را فراهم می‌کند. در واقع می‌تواند صدای بیماران را بازگرداند.

گفتنی است که آزمایشگاه SciFi در دانشگاه کرنل قبلاً یک سیستم مشابه به نام EarIO را توسعه داده بود که از یک دستگاه مجهز به سونار برای ثبت حالات چهره کاربر استفاده می‌کرد.