ماشینهایی که زبانتان را میفهمند
یکی از کارآمدترین ابزارهای مبادله اطلاعات برای بشر گفتار است. انسان امروزی همواره در این آرزو بوده است که بتواند به روشی برای کنترل محیط و ارتباط با ابزارها و ماشینها از طریق این ابزار کارآمد یعنی گفتار دست یابد.
از اینرو در سالهای اخیر تولید سیستمهای تشخیص و بازشناسی گفتار در بسیاری از مراکز تحقیقاتی در سطح دنیا مورد توجه قرار گرفته است. با توجه به اهمیت این سیستمها در طراحی و ساخت نسل آینده ابزارهای ارتباطی، طراحی سیستمهای پیشرفته در بازشناسی گفتار مورد توجه گروهی از پژوهشگران قرار گرفته است.
پژوهشگران دانشکده مهندسی دانشگاه صنعتی امیرکبیر از دستیابی به روش جدیدی برای بهبود عملکرد سیستمهای بازشناسی گفتار در سامانههای هوشمند خبر دادهاند که براساس آن میتوان نرمافزارهایی را برای فراهم ساختن امکان استفاده از شیوه ارتباطی جدیدی در تلفنهای همراه و کامپیوترها بدون نیاز به موس و صفحه کلید طراحی کرد.
با مهندس کامران قاصدی دانشآموخته کارشناسی ارشد مهندسی پزشکی و مجری این
طرح درباره سیستمهای بازشناسی گفتار و امکانات مختلف این سیستمها
گفتوگو کردهایم که در ادامه آن را میخوانید.
بازشناسی گفتار در حوزه ارتباطات هوشمند بین انسانها و سیستمهای کامپیوتری چه جایگاهی دارد؟
مهمترین هدف بازشناسی گفتار کمک به حذف وسایل ارتباطی واسطه نظیر موس و
صفحه کلید در کامپیوترها و تلفنهای همراه است. یعنی به کمک آن میتوان
ابزارهای ارتباطی را از طریق گفتار تحت کنترل قرار داد. با توجه به
کاربردهای فراوانی که بازشناسی گفتار دارد، نقش اساسی این فناوری در حوزه
ارتباطات هوشمند مورد توجه قرار گرفته است. در حقیقت 25 سال از زمانی که
نخستین بار روشهای بازشناسی گفتار مورد توجه قرار گرفت، میگذرد. در این
پروژه برای به حداقل رساندن نویز یا صداهای مزاحم محیطی و پارامترهای متغیر
گفتار از بازشناسی گفتار براساس اطلاعات صوتی و تصویری استفاده شده است.
یعنی علاوه بر سیگنالهای صوتی، تصویر فرد کاربر نیز مشاهده میشود و
براساس منحنی که از خطوط دور لب فرد ترسیم میشود، ویژگیهایی استخراج
میشود که در بازشناسی گفتار مورد استفاده قرار میگیرد. این فرآیند درست
شبیه همان فرآیندی است که در لبخوانی انجام میشود. در نهایت این ویژگیها
در کنار ویژگیها و خصوصیات صدای فرد برای تشخیص آنچه گفته است مورد
استفاده قرار میگیرد.
این روش بر چه مبنایی ارائه شده است؟
ما برای این کار با اخذ مجوز از دانشگاه ATH سوئیس پایگاه اطلاعات آنها را
دانلود کردیم و سپس روی این دادهها برنامههایی را اجرا کردیم و توانستیم
به نتایجی در زمینه ارائه روشی جدید برای بازشناسی گفتار دست یابیم. پس از
این میتوان براساس روش جدید ارائه شده با همکاری شرکتها، محصولات تجاری
را مبتنی بر این روش با بازار عرضه کرد. نتایج این تحقیق نشان میدهد این
روش جدید در بازشناسی گفتار میتواند از فواید بیشماری برخوردار باشد.
برای مثال محصولات جدید سونی مجهز به نرمافزاری است که از قابلیت تطبیق با
صدای صاحبش برخوردار است. در این صورت برای فعال شدن سیستم عامل، دیگر
نیازی به حساب کاربری و رمز عبور ندارید بلکه لپ تاپ یا گوشی تلفن همراه
مارک سونی شما به محض شنیدن صدایتان فعال میشود. بر اساس این نتایج
میتوان نرمافزاری را طراحی کرد که در این طرح، تحقیقات لازم برای ساخت
نمونه داخلی آن صورت گرفته است.
ویژگی منحصر به فرد این روش در مقایسه با روشهای مشابه بازشناسی گفتار چیست؟
این روش جدید در مقایسه با روشهای قبلی از کاربردهای متنوعتری برخوردار
است. این روش در نهایت میتواند به طراحی و ساخت سامانههای هوشمندی منجر
شود که میتوانند با کاربرانشان ارتباط برقرار کنند. گام بعدی پیشرفت این
سیستمها تحلیل محتوایی گفتار است. به عبارت دیگر کامپیوتر جمله شما را
نمینویسد بلکه این جمله را درک میکند و براساس آن منابعی را که مرتبط است
در اختیارتان قرار میدهد. البته پیش از این نیز در این زمینه اقدامات
مشابهی نظیر طراحی نرمافزارهای هوشمند تایپ توسط گروهی از محققان دانشگاه
صنعتی شریف انجام شده بود اما همه روشهای پیشین دارای محدودیت است. برخی
از این محدودیتها ناشی از این است که کاربر باید حتما در اتاقی کاملا ساکت
که عایق صداست از این نرمافزار استفاده کند. اما در دنیای واقعی و روزمره
شما در محیطی هستید که مجموعهای از صداهای محیطی مزاحم و صدای افراد دیگر
هم وجود دارد.
چرا به این فکر افتادید که بهتر است در سیستمهای بازشناسی گفتار از ویژگیهای تصویری استفاده کنید؟
انسان این توانایی را دارد که بتواند تنها صدایی را که مورد نظرش است،
بشنود و بقیه صداها را فیلتر کند. اما ماشینها در این زمینه با محدودیت
مواجه هستند. برای مثال، صداهای محیطی و بالا و پایین شدن صداها در این
سیستم اختلال ایجاد میکند. این روش جدید در مقایسه پیشرفتهتر است و
قابلیت حذف صداهای محیطی را دارد. یکی از راهکارها برای حل این مشکل علاوه
بر بهرهمندی از اطلاعات تصویری این است که در این روش از الگوی مغز انسان
ایده گرفته شود. در قشر کورتکس مغز نواحی جداگانهای تحت عنوان بخشهای
بینایی و شنیداری وجود دارد که اطلاعات را پردازش میکند. در بخش بالاتر
پردازش اطلاعات به درک گفتار منتهی میشود. در این روش جدید از اطلاعات
فیزیولوژیک هم استفاده شده است.
این روش جدید چه امکاناتی را باهدف بهبود ارتباطات هوشمند در اختیار کاربران قرار میدهد؟
نتایج بهدست آمده از این تحقیقات را میتوان در قالب یک نرمافزار ارائه
کرد که روی ابزارهای مختلف قابل نصب است و بر این اساس اپلیکیشنهایی
برنامهنویسی میشود. در این زمینه اقدامات مشابهی نیز انجام شده است. برای
مثال اپل که از جمله شرکتهای بزرگ و مطرح در زمینه طراحی و ساخت گوشیهای
هوشمند است از روش مشابهی در طراحی سیستم نرم افزاری نسل جدید گوشیهای
آیفون استفاده کرده است که ارتباط کاربر با گوشی تلفن همراه را به شیوهای
متفاوت امکانپذیر میسازد. به این ترتیب میتوانید از گوشی تلفن همراهتان
سوالی بپرسید. این نرمافزار سوال شما را درک کرده و درباره آن در اینترنت
جستجو میکند و در نهایت نتیجه جستجو را اعلام میکند. در حقیقت این
نرمافزار از عملکردی شبیه یک منشی اختصاصی برای کاربران برخوردار است. اما
اگر بتوان کیفیت بازشناسی گفتار را در این نرمافزار ارتقا داد تا ویژگی
هوشمندی هم به آن اضافه شود میتواند از قابلیت درک عواطف و احساسات
کاربران نیز برخوردار شود.
فرانک فراهانیجم - گروه دانش
تاثیر فناوری بازشناسی گفتار بر آینده فناوری
نخستین سیستمهای بازشناسی گفتار سال 1332 طراحی شد. یکی از بزرگترین محدودیتهای این سیستمها در مقایسه با سیستمهای امروزی این بود که این سیستم به شیوه گفتار گسسته که مستلزم ایجاد وقفه بین کلمات است و به صورت وابسته به شخص گوینده و تنها با تعداد واژه محدودی عمل میکرد.
ابتدا استفاده از این فناوری به افرادی که با ناتوانی در استفاده از شیوههای متداول ارتباطی مواجه بودند، محدود میشد اما بتدریج محدوده کاربری آنها گستردهتر شد.
این سیستم قابلیت اجرا و کنترل گفتاری برنامههای کامپیوتری را دارد و به این ترتیب کار با نرمافزارها بسیار سریعتر میشود.
علاوه بر این سیستمهای بازشناسی گفتار، امکان کنترل از راه دور وسایل و ابزارهای مختلف را نیز فراهم میکند. گفتاری شدن نرمافزارهای آموزشی و بازیها نیز موجب جذابتر شدن این نرمافزار شده است. سیستمهای بازشناسی گفتار انواع مختلفی دارد.
بعضی از این سیستمها تنها گفتار پیوسته را شناسایی میکند و بعضی دیگر تنها در صورتی که بین کلمات فاصله یا به اصطلاح سکوت وجود داشته باشد واژهها را تشخیص میدهد، اما بهترین و ایدهآلترین سیستم بازشناسی گفتار سیستمی است که توانایی تشخیص گفتار پیوستهای را که به گویندهای خاص وابسته نباشد، داشته باشد و بتواند صدای شخص گوینده را از میان مجموع صداهای محیطی تشخیص دهد.
به طور کلی، هدف از طراحی و ساخت این سامانه فراهم کردن امکان ارتباط بین انسانها و ماشینهای مختلف از جمله رایانهها از طریق گفتار است.
اگر بخواهیم دورنمایی از آینده را ترسیم کنیم باید اشاره کنیم که بزودی ماشین ها و ابزار دوروبرمان آنقدر هوشمند و طبیعی با ما ارتباط برقرار خواهند کرد که ما طبیعتا حضور آنها در کنار خودمان را به عنوان موجودی ذی شعور خواهیم پذیرفت. چنین سامانههایی میتواند به کودکانی که دچار محدودیتهای گفتاری هستند، کمک کند تا بر این محدودیتها غلبه کنند.
کامران قاصدی