
سيستم هاي تشخيص صوت سيستم هاي الکترونيکي هستند که به دستگاه هاي الکترونيکي اجازه مي دهند تا در برابر صدا از خود واکنش نشان دهند. اين سيستم ها بسيار کاربردي هستند و اهداف زيادي را دنبال مي کنند ولي تا به امروز به همه اهدافشان نرسيده اند و از تمامي پتانسيل هايشان استفاده نشده است. سيستم هاي تشخيص صوت کلمات گفتار و صداهاي موجود را به سيگنال هايي ترجمه مي کنند که قابليت پردازش دارند و مي توان آن ها را به وظيفه اي مشخص تبديل نمود. مباحث مطرح در پردازش گفتار و تشخيص صوت عبارتند از بازشناسي گفتار، تبديل متن به گفتار، بازشناسي گوينده، رمزگذاري گفتار، بهسازي گفتار، بازشناسي زبان، نمايه گذاري اسناد صوتي.
امروزه تعداد زیادی سیستم تشخیص صوت در بازارها وجود دارند. قوی ترین آنها امکان پردازش و شناسایی هزاران کلمه را دارد. تشخیص صوت در کامپیوتر به معنای توانایی یک سیستم کامپیوتری، برنامه افزاری یا یک سخت افزار در رمزگشایی سیگنال های صوتی به صداهای دیجیتالیست که بتوان آن را توسط کامپیوتر یا سخت افزار تغبیر کرد و مورد پردازش قرار داد. تشخیص صوت معمولی برای انجام یک عملیات در یک دستگاه، انجام دستورات، نوشتن بدون نیاز به کیبورد و موس و انجام فعالیت هایی نظیر آنها مورد استفاده قرار می گیرد. بطور کلی بیشترین حوزه تشخیص صوت در تشخیص صدای انسان و گفتار است. یک سیستم تشخیص صوت پایه نیاز به ۲۲ مگاهرتز پردازنده، حداقل ۴۶ مگابایت رم، یک میکروفن پایه و یک کارت صدای حداقل ۶۴ بیتی نیاز دارد. افزایش سایز رم، پردازنده و کارت صدا و افزایش توان میکروفن می تواند در افزایش دقت و کارایی سیستم های تشخیص صوت کمک شایانی نماید. علاوه بر این حداقل نیازمندی های سخت افزاری، سیستم های تشخیص صوت نیاز به نرم افزار دارند تا بتواند داده ها را جمع آوری، تحلیل و تفسیر نمایند. نرم افزار های متفاوت از روش های متفاوتی به این اهداف نائل می آیند. مدل های وابسته به صوت و زبان دارای مدل پردازش پایه هستند که در آنها صدا از میکروفن گرفته می شود و توسط کامپیوتر پردازش می شوند. در مدل های صوتی صدا آنالیز و تحلیل می شوند و بعد از آن که کاربر در میکروفن صحبت می کند، صدای مورد نظر توسط میکروفن گرفته می شود و نویزها و صداهای اضافی موجود در پس زمینه صدا که روی حجم صدا و کیفیت آن تاثیر گذارند، حذف می شوند. از توابع ریاضی برای دریافت صدا و تبدیل آن به رنج و فرکانس مورد نیاز استفاده می شود. سپس داده های بدست آمده تحلیل می شوند و تبدیل به نمایش های دیجیتالی در می آیند. مدل های زبانی محتوای صدا را مورد بررسی قرار می دهند. از این مدل بیشتر با اهداف تشخیص گفتار استفاده می شود. این مدل به مقایسه بین صدای دریافتی و لغت های موجود در دایره المعارف می پردازد که بزرگترین و رایج ترین پایگاه داده لغات موجود در زبان انگلیسی اند.