اخبار it خبر آی تی

اخبار it خبر آی تی

اخبار it خبر آی تی

اخبار it خبر آی تی

ماشین‌هایی ​که زبانتان را می‌فهمند












ماشین‌هایی ​که زبانتان را می‌فهمند

یکی از کارآمدترین ابزارهای مبادله اطلاعات برای بشر گفتار است. انسان امروزی همواره در این آرزو بوده است که بتواند به روشی برای کنترل محیط و ارتباط با ابزارها و ماشین‌ها از طریق این ابزار کارآمد یعنی گفتار دست یابد.

از این‌رو در سال‌های اخیر تولید سیستم‌های تشخیص و بازشناسی گفتار در بسیاری از مراکز تحقیقاتی در سطح دنیا مورد توجه قرار گرفته است. با توجه به اهمیت این سیستم‌ها در طراحی و ساخت نسل آینده ابزارهای ارتباطی، طراحی سیستم‌های پیشرفته در بازشناسی گفتار مورد توجه گروهی از پژوهشگران قرار گرفته است.

پژوهشگران دانشکده مهندسی دانشگاه صنعتی امیرکبیر از دستیابی به روش جدیدی برای بهبود عملکرد سیستم‌های بازشناسی گفتار در سامانه‌های هوشمند خبر داده‌اند که براساس آن می‌توان نرم‌افزارهایی را برای فراهم ساختن امکان استفاده از شیوه ارتباطی جدیدی در تلفن‌های همراه و کامپیوترها بدون نیاز به موس و صفحه کلید طراحی کرد.

با مهندس کامران قاصدی دانش‌آموخته کارشناسی ارشد مهندسی پزشکی و مجری این طرح درباره سیستم‌های بازشناسی گفتار و امکانات مختلف این سیستم‌ها گفت‌وگو کرده‌ایم که در ادامه آن را می‌خوانید.

بازشناسی گفتار در حوزه ارتباطات هوشمند بین انسان‌ها و سیستم‌های کامپیوتری چه جایگاهی دارد؟

مهم‌ترین هدف بازشناسی گفتار کمک به حذف وسایل ارتباطی واسطه نظیر موس و صفحه کلید در کامپیوترها و تلفن‌های همراه است. یعنی به کمک آن می‌توان ابزارهای ارتباطی را از طریق گفتار تحت کنترل قرار داد. با توجه به کاربردهای فراوانی که بازشناسی گفتار دارد، نقش اساسی این فناوری در حوزه ارتباطات هوشمند مورد توجه قرار گرفته است. در حقیقت 25 سال از زمانی که نخستین بار روش‌های بازشناسی گفتار مورد توجه قرار گرفت، می‌گذرد. در این پروژه برای به حداقل رساندن نویز یا صداهای مزاحم محیطی و پارامترهای متغیر گفتار از بازشناسی گفتار براساس اطلاعات صوتی و تصویری استفاده شده است. یعنی علاوه بر سیگنال‌های صوتی، تصویر فرد کاربر نیز مشاهده می‌شود و براساس منحنی که از خطوط دور لب فرد ترسیم می‌شود، ویژگی‌هایی استخراج می‌شود که در بازشناسی گفتار مورد استفاده قرار می‌گیرد. این فرآیند درست شبیه همان فرآیندی است که در لب‌خوانی انجام می‌شود. در نهایت این ویژگی‌ها در کنار ویژگی‌ها و خصوصیات صدای فرد برای تشخیص آنچه گفته است مورد استفاده قرار می‌گیرد.

این روش بر چه مبنایی ارائه شده است؟

ما برای این کار با اخذ مجوز از دانشگاه ATH سوئیس پایگاه اطلاعات آنها را دانلود کردیم و سپس روی این داده‌ها برنامه‌هایی را اجرا کردیم و توانستیم به نتایجی در زمینه ارائه روشی جدید برای بازشناسی گفتار دست یابیم. پس از این می‌توان براساس روش جدید ارائه شده با همکاری شرکت‌ها، محصولات تجاری را مبتنی بر این روش با بازار عرضه کرد. نتایج این تحقیق نشان می‌دهد این روش جدید در بازشناسی گفتار می‌تواند از فواید بی‌شماری برخوردار باشد. برای مثال محصولات جدید سونی مجهز به نرم‌افزاری است که از قابلیت تطبیق با صدای صاحبش برخوردار است. در این صورت برای فعال شدن سیستم عامل، دیگر نیازی به حساب کاربری و رمز عبور ندارید بلکه لپ تاپ یا گوشی تلفن همراه مارک سونی شما به محض شنیدن صدایتان فعال می‌شود. بر اساس این نتایج می‌توان نرم‌افزاری را طراحی کرد که در این طرح، تحقیقات لازم برای ساخت نمونه داخلی آن صورت گرفته است.

ویژگی منحصر به فرد این روش در مقایسه با روش‌های مشابه بازشناسی گفتار چیست؟

این روش جدید در مقایسه با روش‌های قبلی از کاربردهای متنوع‌تری برخوردار است. این روش در نهایت می‌تواند به طراحی و ساخت سامانه‌های هوشمندی منجر شود که می‌توانند با کاربرانشان ارتباط برقرار کنند. گام بعدی پیشرفت این سیستم‌ها تحلیل محتوایی گفتار است. به عبارت دیگر کامپیوتر جمله شما را نمی‌نویسد بلکه این جمله را درک می‌کند و براساس آن منابعی را که مرتبط است در اختیارتان قرار می‌دهد. البته پیش از این نیز در این زمینه اقدامات مشابهی نظیر طراحی نرم‌افزارهای هوشمند تایپ توسط گروهی از محققان دانشگاه صنعتی شریف انجام شده بود اما همه روش‌های پیشین دارای محدودیت است. برخی از این محدودیت‌ها ناشی از این است که کاربر باید حتما در اتاقی کاملا ساکت که عایق صداست از این نرم‌افزار استفاده کند. اما در دنیای واقعی و روزمره شما در محیطی هستید که مجموعه‌ای از صداهای محیطی مزاحم و صدای افراد دیگر هم وجود دارد.

چرا به این فکر افتادید که بهتر است در سیستم‌های بازشناسی گفتار از ویژگی‌های تصویری استفاده کنید؟

انسان‌ این توانایی را دارد که بتواند تنها صدایی را که مورد نظرش است، بشنود و بقیه صداها را فیلتر کند. اما ماشین‌ها در این زمینه با محدودیت مواجه هستند. برای مثال، صداهای محیطی و بالا و پایین شدن صداها در این سیستم اختلال ایجاد می‌کند. این روش جدید در مقایسه پیشرفته‌تر است و قابلیت حذف صداهای محیطی را دارد. یکی از راهکارها برای حل این مشکل علاوه بر بهره‌مندی از اطلاعات تصویری این است که در این روش از الگوی مغز انسان ایده گرفته شود. در قشر کورتکس مغز نواحی جداگانه‌ای تحت عنوان بخش‌های بینایی و شنیداری وجود دارد که اطلاعات را پردازش می‌کند. در بخش بالاتر پردازش اطلاعات به درک گفتار منتهی می‌شود. در این روش جدید از اطلاعات فیزیولوژیک هم استفاده شده است.

این روش جدید چه امکاناتی را باهدف بهبود ارتباطات هوشمند در اختیار کاربران قرار می‌دهد؟

نتایج به‌دست آمده از این تحقیقات را می‌توان در قالب یک نرم‌افزار ارائه کرد که روی ابزارهای مختلف قابل نصب است و بر این اساس اپلیکیشن‌هایی برنامه‌نویسی می‌شود. در این زمینه اقدامات مشابهی نیز انجام شده است. برای مثال اپل که از جمله شرکت‌های بزرگ و مطرح در زمینه طراحی و ساخت گوشی‌های هوشمند است از روش مشابهی در طراحی سیستم نرم افزاری نسل جدید گوشی‌های آیفون استفاده کرده است که ارتباط کاربر با گوشی تلفن همراه را به شیوه‌ای متفاوت امکان‌پذیر می‌سازد. به این ترتیب می‌توانید از گوشی تلفن همراهتان سوالی بپرسید. این نرم‌افزار سوال شما را درک کرده و درباره آن در اینترنت جستجو می‌کند و در نهایت نتیجه جستجو را اعلام می‌کند. در حقیقت این نرم‌افزار از عملکردی شبیه یک منشی اختصاصی برای کاربران برخوردار است. اما اگر بتوان کیفیت بازشناسی گفتار را در این نرم‌افزار ارتقا داد تا ویژگی هوشمندی هم به آن اضافه شود می‌تواند از قابلیت درک عواطف و احساسات کاربران نیز برخوردار شود.

فرانک فراهانی‌جم - گروه دانش

تاثیر فناوری بازشناسی گفتار بر آینده فناوری

نخستین سیستم‌های بازشناسی گفتار سال 1332 طراحی شد. یکی از بزرگ‌ترین محدودیت‌های این سیستم‌ها در مقایسه با سیستم‌های امروزی این بود که این سیستم به شیوه گفتار گسسته که مستلزم ایجاد وقفه بین کلمات است و به صورت وابسته به شخص گوینده و تنها با تعداد واژه محدودی عمل می‌کرد.

ابتدا استفاده از این فناوری به افرادی که با ناتوانی در استفاده از شیوه‌های متداول ارتباطی مواجه بودند، محدود می‌شد اما بتدریج محدوده کاربری آنها گسترده‌تر شد.

این سیستم قابلیت اجرا و کنترل گفتاری برنامه‌های کامپیوتری را دارد و به این ترتیب کار با نرم‌افزارها بسیار سریع‌تر می‌شود.

علاوه بر این سیستم‌های بازشناسی گفتار، امکان کنترل از راه دور وسایل و ابزارهای مختلف را نیز فراهم می‌کند. گفتاری شدن نرم‌افزارهای آموزشی و بازی‌ها نیز موجب جذاب‌تر شدن این نرم‌افزار شده است. سیستم‌های بازشناسی گفتار انواع مختلفی دارد.

بعضی از این سیستم‌ها تنها گفتار پیوسته را شناسایی می‌کند و بعضی دیگر تنها در صورتی که بین کلمات فاصله یا به اصطلاح سکوت وجود داشته باشد واژه‌ها را تشخیص می‌دهد، اما بهترین و ایده‌آل‌ترین سیستم بازشناسی گفتار سیستمی است که توانایی تشخیص گفتار پیوسته‌ای را که به گوینده‌ای خاص وابسته نباشد، داشته باشد و بتواند صدای شخص گوینده را از میان مجموع صداهای محیطی تشخیص دهد.

به طور کلی، هدف از طراحی و ساخت این سامانه فراهم کردن امکان ارتباط بین انسان‌ها و ماشین‌های مختلف از جمله رایانه‌ها از طریق گفتار است.

اگر بخواهیم دورنمایی از آینده را ترسیم کنیم باید اشاره کنیم که بزودی ماشین ها و ابزار دوروبرمان آنقدر هوشمند و طبیعی با ما ارتباط برقرار خواهند کرد که ما طبیعتا حضور آنها در کنار خودمان را به عنوان موجودی ذی شعور خواهیم پذیرفت. چنین سامانه‌هایی می‌تواند به کودکانی که دچار محدودیت‌های گفتاری هستند، کمک کند تا بر این محدودیت‌ها غلبه کنند.

کامران قاصدی

نظرات 0 + ارسال نظر
برای نمایش آواتار خود در این وبلاگ در سایت Gravatar.com ثبت نام کنید. (راهنما)
ایمیل شما بعد از ثبت نمایش داده نخواهد شد