آشنایی با تشخیص گفتار

آشنایی با تشخیص گفتار

تشخیص گفتار چیست؟

تشخیص گفتار ، همچنین به عنوان تشخیص خودکار گفتار، تشخیص گفتار رایانه ای، یا گفتار به متن شناخته می شود، یک توانایی است که یک برنامه را قادر می سازد گفتار انسان را به یک قالب نوشتاری پردازش کند. در حالی که معمولاً با تشخیص صدا اشتباه گرفته می شود، تشخیص گفتار بر ترجمه گفتار از قالب کلامی به متن متمرکز است در حالی که تشخیص صدا فقط به دنبال شناسایی صدای یک کاربر است.

IBM از زمان تأسیس خود، با انتشار “Shoebox” در سال 1962 ، نقش برجسته ای در تشخیص گفتار داشته است. این دستگاه توانایی تشخیص 16 کلمه مختلف را دارد و کار اولیه آزمایشگاه های بل را از دهه 1950 پیش می برد. با این حال ، IBM در همین جا متوقف نشد ، اما در طول سال ها به نوآوری خود ادامه داد و برنامه VoiceType Simply Speaking را در سال 1996 راه اندازی کرد. این نرم افزار تشخیص گفتار دارای یک فرهنگ لغت 42000 کلمه ای بود، از انگلیسی و اسپانیایی پشتیبانی می کرد و شامل یک دیکشنری املایی 100000 کلمه ای بود. در حالی که فن آوری گفتار در روزهای ابتدایی واژگان محدودی داشت ، امروزه در تعداد زیادی از صنایع مانند اتومبیل سازی ، فناوری و مراقبت های بهداشتی از آن استفاده می شود. تصویب آن در سال های اخیر به دلیل پیشرفت در یادگیری عمیق و داده های بزرگ ، فقط در شتاب ادامه داشته است. تحقیقات نشان می دهد ارزش این بازار تا سال 2025 24.9 میلیارد دلار است.

 

آشنایی با تشخیص گفتار

ویژگی های اصلی تشخیص گفتار موثر

بسیاری از برنامه ها و دستگاه های تشخیص گفتار در دسترس هستند، اما راه حل های پیشرفته تر از هوش مصنوعی و یادگیری ماشین استفاده می کنند. آنها گرامر، نحو، ساختار و ترکیب سیگنال های صوتی و صوتی را برای درک و پردازش گفتار انسان ادغام می کنند. در حالت ایده آل، آن ها هرطور که می روند یاد می گیرند – با هر تعامل پاسخ هایی در حال تکامل هستند
همچنین بهترین نوع سیستم ها به سازمان ها این امکان را می دهند تا فناوری را با نیازهای خاص خود – از زبان و تفاوت های ظریف گفتار گرفته تا شناخت مارک – تنظیم کنند. مثلا:

  • وزن دهی زبان: با توزین کلمات خاصی که مرتباً صحبت می شوند (مانند نام محصول یا اصطلاحات اصطلاحات صنعتی)، فراتر از اصطلاحاتی که در واژگان پایه وجود دارد، دقت را بهبود ببخشید.
  • برچسب زدن بلندگو: رونویسی را تولید کنید که به کمک هر سخنران در مکالمه چندنفر شرکت می کند یا آنها را نشان می کند.
  • آموزش آکوستیک: در قسمت صوتی کسب و کار شرکت کنید. سیستم را برای سازگاری با یک محیط صوتی (مانند صدای محیط در مرکز تماس) و سبک های بلندگو (مانند صدای صدا، میزان صدا و سرعت) آموزش دهید.
    فیلتر ناسزا: برای شناسایی کلمات یا عبارات خاص و ضد عفونی کردن خروجی گفتار، از فیلترها استفاده کنید.

در همین حال، تشخیص گفتار همچنان پیشرفت می کند. شرکت ها، مانند IBM در چندین زمینه فعالیت می کنند، بهتر است تعامل انسان و ماشین را بهبود بخشند.

 

الگوریتم های تشخیص گفتار

مبهم بودن گفتار انسان ، رشد را به چالش کشیده است. این یکی از پیچیده ترین زمینه های علوم کامپیوتر است – شامل زبان شناسی، ریاضیات و آمار. تشخیص دهنده گفتار از چند م مولفه تشکیل شده است ، مانند ورودی گفتار ، استخراج ویژگی ، بردارهای ویژگی، رسیور و خروجی کلمه. رمزگشای استفاده از مدل های صوتی، فرهنگ لغت تلفظ، و مدل های زبان برای تعیین خروجی مناسب است.

فن آوری تشخیص گفتار از نظر میزان دقت، یعنی میزان خطای کلمه (WER) و سرعت آن ارزیابی می شود. تعدادی از فاکتورها می توانند بر میزان خطای کلمه تأثیر بگذارند، مانند تلفظ، لهجه، صدا، میزان صدا و صدای پس زمینه. مدتهاست که هدف سیستم های تشخیص گفتار رسیدن به برابری انسان – به معنای میزان خطا برابر با دو نفر صحبت کردن – است. تحقیقات انجام شده از (پیوند مستقر در خارج از IBM) (PDF ، 344 KB) میزان خطای کلمه را در حدود 4 درصد تخمین می زند، اما تکرار نتایج حاصل از این مقاله دشوار بوده است.
از الگوریتم ها و تکنیک های مختلف محاسبه برای تشخیص گفتار به متن و بهبود دقت در رونویسی استفاده می شود. در زیر توضیحات مختصری از متداولترین روشها آورده شده است:

  • پردازش زبان طبیعی (NLP)

    گرچه NLP الزاماً الگوریتم خاصی نیست که در تشخیص گفتار استفاده می شود ، این منطقه از هوش مصنوعی است که بر تعامل بین انسان و ماشین از طریق زبان از طریق گفتار و متن تمرکز دارد. بسیاری از دستگاه های تلفن همراه برای انجام جستجوی صوتی، تشخیص گفتار را در سیستم های خود قرار می دهند – به عنوان مثال. سیری – یا دسترسی بیشتر در مورد پیام کوتاه.

  • مدلهای مارکوف پنهان (HMM)

    مدلهای مارکوف پنهان بر اساس مدل زنجیره ای مارکوف بنا شده اند، که بیان می کند احتمال وجود یک حالت معین از حالت فعلی متغیر است، نه از حالتهای قبلی آن. در حالی که یک مدل زنجیره ای مارکوف برای رویدادهای قابل مشاهده مانند ورودی متن مفید است، مدلهای مارکوف پنهان به ما امکان می دهند رویدادهای پنهان مانند برچسب های بخشی از گفتار را در یک مدل احتمالی بگنجانیم. آنها به عنوان مدل توالی در تشخیص گفتار استفاده می شوند، و به هر واحد برچسب می زنند – یعنی. کلمات، هجا، جملات و غیره – در دنباله. این برچسب ها با ورودی ارائه شده نگاشتی را ایجاد می کنند، به شما این امکان را می دهد که مناسب ترین توالی برچسب را تعیین کند.

  • شبکه های عصبی

    در درجه اول برای الگوریتم های یادگیری عمیق، شبکه های عصبی با تقلید از ارتباط متقابل مغز انسان از طریق لایه های گره ، داده های آموزشی را پردازش می کنند. هر گره از ورودی ها، وزنه ها، بایاس (یا آستانه) و یک خروجی تشکیل شده است. اگر آن مقدار خروجی بیش از یک آستانه مشخص باشد، گره را “آتش” می زند یا فعال می کند، داده ها را به لایه بعدی شبکه منتقل می کند. شبکه های عصبی این عملکرد نقشه برداری را از طریق یادگیری نظارت شده، تنظیم می کنند که براساس عملکرد از دست دادن از طریق روند نزولی شیب ، تنظیم می شود. در حالی که شبکه های عصبی تمایل به دقت بالاتری دارند و می توانند داده های بیشتری را بپذیرند، این هزینه با بازده عملکردی همراه است زیرا آموزش آنها در مقایسه با مدل های سنتی زبان کندتر است.

  • Diarization Speaker (SD)

    الگوریتم های Diarization بلندگو گفتار را با هویت بلندگو شناسایی و تقسیم می کنند. این کمک می کند تا برنامه ها افراد را در مکالمه بهتر تشخیص دهند و اغلب در مراکز تماس مشتریان و نمایندگان فروش متمایز می شوند.

 

موارد استفاده از تشخیص گفتار

امروزه تعداد زیادی از صنایع با استفاده از کاربردهای مختلف فن آوری گفتار، به مشاغل و مصرف کنندگان در صرفه جویی در وقت و حتی زندگی کمک می کنند. برخی از نمونه ها عبارتند از:

  • خودرو

    تشخیص دهنده های گفتار با فعال کردن سیستم های ناوبری فعال شده با صدا و قابلیت جستجو در رادیوهای اتومبیل، ایمنی راننده را بهبود می بخشند.

  • فناوری

    دستیاران مجازی به طور فزاینده ای در زندگی روزمره ما ، به ویژه در دستگاه های تلفن همراه ما ادغام می شوند. ما از دستورات صوتی برای دستیابی به آنها از طریق تلفن های هوشمند خود مانند دستیار Google یا Apple’s Siri برای کارهایی مانند جستجوی صوتی یا از طریق بلندگوهای خود از طریق Amazon Alexa یا Microsoft’s Cortana برای پخش موسیقی استفاده می کنیم. آنها فقط به ادغام در محصولات روزمره ای که ما استفاده می کنیم ادامه می دهند و به جنبش “اینترنت اشیا” دامن می زنند.

  • بهداشت و درمان

    پزشکان و پرستاران از برنامه های کاربردی برای استفاده و ثبت تشخیص ها و یادداشت های درمانی بیمار استفاده می کنند.

  • فروش

    فناوری تشخیص گفتار چندین کاربرد در فروش دارد. این می تواند به یک مرکز تماس کمک کند تا هزاران تماس تلفنی بین مشتریان و نمایندگان را رونویسی کند تا الگوها و مشکلات معمول تماس را شناسایی کند. ربات های شناختی همچنین می توانند از طریق یک صفحه وب با افراد صحبت کنند، به سوالات متداول پاسخ دهند و درخواست های اساسی را حل کنند بدون اینکه منتظر بمانند تا یک نماینده مرکز تماس در دسترس باشد. هر دو نمونه سیستم های تشخیص گفتار به کاهش زمان حل برای مشکلات مصرف کننده کمک می کنند.

  • امنیت

    همانطور که فناوری در زندگی روزمره ما ادغام می شود، پروتکل های امنیتی یک اولویت فزاینده هستند. احراز هویت مبتنی بر صدا، سطح قابل قبولی از امنیت را ایجاد می کند.

 

 

پیشنهاد نویسنده: موارد استفاده از علوم دادهوضعیت و کاربرد هوش مصنوعی در ایران

دیدگاهتان را بنویسید