Регистрация Вход
Энциклопедия /Техника / Распознавание речи

ТехникаАнатомияЗдоровьеОбществоПриродаКосмосИнтернетЕда и напиткиСексМодаПсихологияЛюбовьИстории

Вы можете написать и разместить на портале статью.

Убедительно просим не присылать статьи из интернета - их можно найти поисковыми машинами. Напишите свою, интересную и уникальную статью. Сфотографируйте и опишите лабораторную работу по физике, или химии, пришлите фотографии Вашей самоделки....
шлите статьи на адрес we@guru.ua

Распознавание речи

Содержание:

В наше время во многих особенно крупных компаниях трубку снимает не человек, а некий автомат. Автоматизированный голос отвечает на наши вопросы и просит нас нажать ту или иную кнопку, чтобы перейти к следующему меню. Другие компании даже не просят нажатие кнопок. Вы можете просто произнести определенные слова (только те, что записаны на пленке), чтобы получить необходимую вам информацию. Такая система является разновидностью программ распознавания речевых команд - автоматизированная телефонная система.

На сегодняшний день на рынке существует ряд таких программ, которые можно использовать в домашних условиях или на работе. Каждая программа предлагает своему пользователю ряд возможностей, например, диктовать некий текст непосредственно компьютеру, который в качестве секретаря записывает каждое слово. Таким образом можно быстро написать письма по электронной почте или написать отчет для работы. С помощью голосовых команд можно также получить доступ к командным функциям, например, открыть файл или меню вызова. Некоторые программы предназначены только для определенных целей, например, для использования в медицинской или юридической практике.

Системы распознавания речи используют преимущественно люди с физическими отклонениями. Например, люди, которые потеряли обе свои руки, или лишились зрения и пока не привыкли использовать брайлевскую печать. Такие программы позволяют голосом управлять работой компьютера или набирать любой текст. Некоторые такие программы после каждой сессии сохраняют голосовые данные пользователя, чтобы тот потом мог начать работу с того места, где остановился.

Все программы распознавания речи делятся на две категории: Программы с небольшим словарным запасом, предназначенные для большинства пользователей

Такие системы идеально подходят для автоматизированного телефонного ответа. Эти программы способны распознавать несколько видов голосов, понимать акцент и разбирать речевые образцы пользователей. Однако, управление этими программами ограничено всего несколькими предопределенными командами, например, работой с меню и управлением с цифрами.

Программы с большим словарным запасом, рассчитанные на ограниченное количество пользователей

Эти системы больше всего подходят для небольших компаний, где с программой будет работать только персонал. Но, не смотря на то, что эти программы работают очень четко и содержат несколько десятков тысяч словарей, их необходимо «подстроить» под каждого пользователя или под определенную группу пользователей, поскольку степень точности может значительно упасть, в случае, если программой будет пользоваться «не представленный» ей человек.

Системы распознавания речи, созданные несколько лет назад, также разделялись еще по одному критерию – по восприятию речи: речь с паузами и непрерывная речь. Программе намного легче понять отдельные слова с постоянной паузой между ними. Однако, большинство пользователей предпочитает говорить с обычной скоростью и не прерывать свою речь постоянными паузами. Поэтому практически все современные системы способны понимать непрерывную речь.

Восприятие речи и ее запись

Для того чтобы речь появилась на экране или была воспринята в качестве компьютерной команды, компьютер должен сделать несколько шагов. Когда человек говорит, он создает колебания в воздухе. Аналого-цифровой конвертер (ADC) преобразует эту аналоговую волну в цифровые данные, понятные компьютеру. Во время этого процесса компьютер преобразует звук в цифровую форму. Затем система фильтрует переведенный в цифровую форму звук и удаляет нежелательный шум или помехи, в некоторых случаях она разделяет этот цифровой звук на несколько частотных диапазонов или диапазоновых частот (частота – это длина волны звуковых волн, слышимая человеком). Далее происходит стандартизация звука и регулируется его громкость. Поэтому системе иногда нужно время, чтобы привыкнуть к манере речи определенного пользователя. Поскольку люди постоянно меняют скорость речи, то звук должен быть приспособлен к тому, чтобы быстро находить звуковое соответствие этому образцу из уже сохраненных образцов в памяти системы.

ADC преобразует аналоговые волны голоса в цифровые данные, создавая образцы звука. Чем выше осуществление выборки и нормы точности, тем выше качество.

Затем сигнал делится на несколько сегментов, обычно длиной в несколько сотых доли секунды, или тысячной доли секунды, когда используются взрывных звуки (согласные звуки), например, английские "p" или "t". В этом случае программа сравнивает эти сегменты с известными ей фонемами на понятном ей языке. Фонема – это наименьшая единица языка - представленная звуками, которые мы воспроизводим и из которых формируется наша речь.

Последующие действия на первый взгляд кажутся вполне простыми, но на самом деле эта самая сложная задача, которую пытаются разрешить большинство устройств распознавания речи. После всех перечисленных действий, программа начинает изучать фонемы в контексте других фонем. Затем, как бы соединяя фонемы в возможные слова, программа распознания речи сравнивает их с уже известными словами, фразами и предложениями. Так программа определяет то, что говорит пользователь и представляет полученную информацию либо на экране в виде текста, либо воспринимает ее в качестве компьютерной команды.

Распознавание речи и статистическое моделирование

В первых системах распознавания речи использовали ряд грамматических и синтаксических правил речи. Если произнесенные слова соответствовали записанным в программе правилам, то система могла определить, какое используется слово. Однако, разговорная речь очень сильно отличается от установленных правил языка. Различные акценты, диалекты и особенности произношения звуков отдельных людей значительно затрудняли работу программы. Например, в русском языке в некоторых случаях звонкие согласные оглушаются, что значительно нарушает работу восприятия устройств для распознавания речи. Даже программы с большим набором грамматических правил были не очень эффективными, поскольку система все равно не могла правильно обрабатывать данные вариации. Это также объясняет, почему первые системы распознавания речи не воспринимали непрерывную речь.

В современных системах распознавания речи используются также специальные статистические системы моделирования. Эти системы с помощью теории вероятности и математических вычислений способны определить наиболее вероятный вариант. Джон Гарофоло, работник информационно-технологической лаборатории Национального института стандартов и технологий, говорит, что на сегодняшний день существует две такие модели распознания речи - скрытая модель Маркова (Hidden Markov Model) и модель нейронных сетей (neural networks). Оба эти метода основаны на сложных математических функциях. Принцип их работы прост - они обрабатывают известную системе информацию и из нее «достают» скрытую информацию с помощью вычислений.

Наиболее распространенной считается скрытая модель Маркова, поэтому ей мы уделим особое внимание. В этой модели каждая фонема представляет собой нечто вроде одного звена в цепи, из которых складывается целое слово. Во время подстановки различных вариантов фонем, эти звенья могут меняться, образуя сразу несколько слов из одного и того же набора фонем. Из этого набора фонем программа пытается построить слова. Во время этого процесса программа присуждает каждой фонеме число вероятности ее употребления в данном контексте.

За этим следует еще более сложный процесс формирования словосочетаний и предложений. Из этого хаоса фонем программа пытается построить логические цепи, из которых в последствие получаются целые предложения. Но почему это так сложно? Если в программе записано как минимум 60 000 слов, то фраза из трех слов может иметь 216 триллионов возможных вариантов. Вполне очевидно, что даже самый мощный компьютер не в состояние просмотреть весь свой словарный запас и найти требуемое сочетание без чьей-либо помощи.

В этом компьютеру может помочь специальная программа обучения. Разработчики таких программ создают в системах распознавания речи большое количество речевых образцов. Для этого они могут потратить тысячи часов для записи человеческой речи и записи сотен мегабайт текста. Такие «учебные данные» используются для создания акустических моделей слов, списков слов, и т.д. У каждого разработчика есть свой метод создания таких моделей. Именно по этим методам можно определить хорошо продуманную и плохоработающую системы, даже если разработчики использовали один и тот же алгоритм.

Но, не смотря на то, что разработчики программного обеспечения уже достаточно настроили саму систему распознавания речевых команд, конечный пользователь еще должен подстроить всю систему под свой голос. Пользователь должен потратить еще какое-то время, чтобы программа привыкла к его манере речи. Также программу необходимо обучить основным терминам и акронимам, часто употребляемых именно в данной компании, поскольку, например, у медиков и юристов, существуют определенные термины, употребляющиеся только в их области знаний.

Недостатки программ распознавания речи

Ни одна система распознавания речи не может быть идеальной. Многие из существующих на данный момент недостатков разработчики этих программ пытаются устранить по мере усовершенствования технологий. Другие же недостатки могут устранить сами пользователи. Недостатки бывают следующие:

Слабый сигнал из-за окружающего шума

Программа должна "слышать" каждое слово отчетливо, и любой окружающий шум может нарушить восприятие голоса программой. Шумом считается даже еле слышный разговор других рабочих. Поэтому пользователи должны работать в тихой комнате с хорошим микрофоном, помещенным как можно ближе ко рту. К тому же звуковые платы не очень хорошего качества, через которые передаются сигналы с микрофона на компьютер, очень часто могут пропускать другие электрические сигналы компьютеров. Поэтому сигнал может передаваться с гулом или шипением.

Нечеткость речи

Даже современные системы не способны распознавать одновременную речь нескольких пользователей. "Поэтому если использовать систему распознавания речи во время совещания или собраний, когда выступающие часто прерывают друг друга, то результаты могут оказаться не вполне ожидаемыми "- говорит Джон Гарофоло.

Программы распознавания речи требуют мощный компьютер

Статистические модели, используемые программами для распознавания речи, очень сильно загружает компьютер, поэтому для этого процесса необходимы очень мощные компьютеры, способные одновременно выполнять несколько сложных функций. Во-первых, система должна запоминать каждый свой шаг, когда она подбирает правильное слово из произнесенных фонем, потому что ей может понадобиться вернуться к ранее выбранному варианту. Многие же даже современные компьютеры не всегда могут обрабатывать большое количество информации, поэтому процессор компьютера может значительно медленно обрабатывать информацию. Во-вторых, сами словари этих программ занимают много места, что затрудняет работу процессора, которому необходимо обработать весь поток информации. К счастью, все новые технологии позволяют устранить все эти недостатки.

Омонимы

Омонимы - слова, характеризующиеся одинаковым написанием с другим словом или с другими словами, но имеющие разные значения, например, «коса» – инструмент и «коса» девичья. Программе распознавания речи невозможно объяснить такую разницу между словами. Единственное, что можно сделать в данном случае, это использовать системы обучения и статистические модели, которые смогут определить значение слова из контекста. Программы распознавания речи Vista SR Demo

Вот уже долгое время наиболее популярной программой распознавания речи и речевых команд считается Windows Vista. Но хотя система безупречно справлялась с открытием файлов и документов, когда ее использовали для набора текста на компьютере, проявились многие неточности. Вероятно, проблема распознания речи возникла из-за фонового шума или эха в большой аудитории, где происходила демонстрация данной программы. Видео с этим инцидентом быстро распространилось по всему Интернет, что значительно подорвало репутацию Windows Vista и программ распознавания речи в целом. Первые шаги к разработке программ распознавания речи были сделаны более 50 лет назад. Александр Грехем Белл часто ругал свою жену за то, что та разговаривала со своими подругами через окно. Следует заметить, что его жена была немного глуховата, и поэтому соседям приходилось кричать на всю улицу. Тогда Белл решил создать устройство, которое смогло бы преобразовывать произносимые слова в видимую картину, что значительно помогло бы глухим людям в общении. Ему все же удалось произвести спектрографические изображения звуков, но его жена не могла их расшифровать. Однако, после долгих мучений Белл изобрел телефон. В течение нескольких десятилетий ученые пытались разработать методы компьютеризированного распознавания речи, но существующие в то время слабые компьютеры не позволяли им достичь желаемого успеха. Только в 1990-е годы появились первые достаточно мощные компьютеры, способные осуществить такие действия. Постепенно стали появляться новые программы распознавания голоса, которые стали использовать во многих целях. Так например, в конце 20 века появился первый переводчик GALE, который мог воспринимать речь на одном языке, записывать ее на экран и сразу делать перевод. Такие переводчики стали использовать на международных конференциях и других мероприятиях. Управление перспективных исследований США (DARPA) стремилась создать программное обеспечение, которое позволяло бы делать перевод с двух иностранных языков с 90-процентной точностью."

Но до сих пор, похоже, ни одна компания мира не способна создать универсальный переводчик, поскольку основная трудность заключается в том, что на данный момент не существует такой программы, которая могла бы одновременно воспринимать речь на одном языке и переводить ее на другой язык. Основная сложность заключается в том, что сленг, диалекты, акцент и фоновый шум затрудняют передачу сигнала и работу самой программы. Различные грамматические структуры, используемые разными языками, также составляют проблему перевода. Например, в арабском языке одно слово может означать целое предложение в английском языке.

Возможно, в будущем программы будут не просто распознавать речь, а еще смогут понимать смысл сказанного. Статистические модели, которые подбирают слова и организовывают их в логические цепочки, возможно, в один прекрасный день смогут понимать значение сказанных слов. Но, не смотря на то, что все это кажется с первого взгляда нереальным, некоторые ученые бьются над тем, чтобы создать искусственный интеллект и воплотить эту мечту в жизнь. Уже сегодня мы можем разговаривать с компьютерами, а через 25 лет, если ученым удастся создать искусственный интеллект, компьютеры тоже смогут с нами общаться и вполне логично отвечать на все наши вопросы.

Комментарии к статье "Распознавание речи "
Элинор (гость)
. 17.09.2009 19:36
Прекрасная статья! Большое спасибо
Дарья (гость)
. 30.10.2009 17:41
отличная статья! спасибо!
Сергей Сергеевич (гость)
. 23.03.2010 23:45
Фраза “...частота - это длина волны...“ привела меня в ужас
Рома (гость)
. 12.06.2012 17:58
примерно тоже самое что Период это частота xD
Добавить комментарий:


Имя:

Комментарий:

Защитный код:

Реклама