что это такое, принцип работы, плюсы и минусы
ASR: что это такое в автомобиле
В комплектации современного автомобиля можно встретить множество систем, принцип работы которых не совсем понятен владельцу. Одним из таких дополнений является ASR – Automatic Slip Regulation. Это антипробуксовочная система, которая позволяет водителю проще проехать по скользкой поверхности, получить более высокий уровень общей безопасности эксплуатации машины, особенно в условиях быстрой поездки на трассе.
Существует множество разновидностей данного комплекта оборудования. Принцип работы устройства в разных автомобилях и даже в различных поколениях одного транспорта может сильно отличаться. В современных условиях постоянного развития автомобильных технологий это уже не удивляет. Давайте более подробно рассмотрим основные особенности данного дополнения.
ASR – что это такое в автомобиле, и как это работает?
Такое оснащение относят к активным системам безопасности. Главная задача системы полностью или насколько это возможно предотвратить возможность пробуксовки колес при прохождении зимней дороги, а также при поездке по грязевым проселочным дорогам. Именно пробуксовка часто становится причиной того, что водитель самостоятельно не может выехать, приходится обращаться к помощи трактора или водителей попутных авто.
Существует два основных принципа работы антипробуксовочной системы ASR:
- Первый сценарий запускается, если машина движется со скоростью до 60 км/ч. В этом случае подключенный к датчикам АСР насос с тормозной жидкостью быстро создает давление и притормаживает колесо, которое сорвалось в пробуксовку.
- Второй вариант работы включается при скорости выше 60 км/ч. В этой ситуации торможение может быть опасным, поэтому ASR подает сигналы через ЭБУ на двигатель и снижает крутящий момент. Это не всегда на 100% эффективно, но очень безопасно для водителя.
Бытует мнение, что разделение на два сценария произошло, чтобы сохранить колодки, которые могут перегреваться и даже выгорать на высокой скорости.
Но производители заявляют, что на высоких скоростях просто нельзя инициировать торможение с одной стороны. Это может привести к заносу и только усложнит ситуацию для водителя на сложной дороге.Система управляется датчиками, которые установлены на каждом ведущем колесе. На автомобилях с полным приводом оборудование АСР гораздо дороже и сложнее, здесь оно вносит свои преимущества в проходимость и безопасность поездки по бездорожью.
ASR лучше или хуже традиционной системы ESP?
Проблема обозначений – это один из дьяволов современного автомобилестроения. Водители автомобилей Toyota могли с ухмылкой читать первую часть публикации, так как они знают, что антипробуксовочная система называется TRC (Traction Control), а другие автомобилисты даже нашли в документации к своей машине другие обозначения – TCS (Traction Control System), ETS, ASC и прочие аббревиатуры. В целом это обозначения одной и той же системы.
ESP – это не просто антипробуксовочное оборудование. Это целый комплекс средств поддержания курсовой устойчивости, который включает такое оборудование:
- ASR или любой другой вид антипробуксовки из указанных выше вариантов названий;
- ABS – антиблокировочная система, которая снижает риски блокировки колес при торможении авто;
- MSR – также антиблокировочное оборудование, которое предотвращает блокировку колес при торможении двигателем;
- EBV – система для распределения тормозных усилий между всеми колесами вашего автомобиля.
В элитных авто можно найти еще десяток аббревиатур, которые называют системы безопасности и повышения контроля. Так что отличия ASR от ESP невозможно найти – это названия совершенно разных явлений в вашей машине. АСР является лишь частью комплекса ESP, обеспечивая один из факторов снижения риска заноса или закапывания в грязевой и снежной яме.
Есть ли явные преимущества от системы ASR?
Преимущества заключаются в том, что при поездке на рыбалку по проселочной грязной дороге вам не придется выходить из авто и толкать его, измазывая всю одежду. Как только колесо начинает прокручиваться, система включается в действие и практически блокирует его, позволяя другому ведущему колесу с более качественным сцеплением с поверхностью дороги вытащить машину.
Антипробуксовочная система ASR в недорогих автомобилях практически не устанавливается. Чаще всего это привилегия авто классом выше или более дорогой комплектации. Если у вас есть выбор, устанавливать ли АСР в машину, но за это нужно доплатить деньги, стоит выбирать вариант с установкой данного комплекса. Это повышение вашей уверенности и безопасности в эксплуатации. Уже первая зима на машине покажет, что вы приняли совершенно правильное решение.
Многие автомобилисты с опытом посмотрят, как работает система ASR, поймут ее примитивность и скажут, что смысла от нее никакого нет. Это справедливо только отчасти. Если вы опытный водитель с 20 годами стажа поездки по сложным дорогам, то и без такой помощи вряд ли застрянете в снежном плену. Но для владельцев авто с менее ярким опытом такие комплексы все же будут полезны.
Из недостатков стоит выделить лишь несколько особенностей:
- достаточно высокая стоимость, если на ваш автомобиль можно поставить такую систему опционально при заказе машины в салоне;
- не всегда эффективное срабатывание, очень часто АСР инициирует торможение слишком поздно, когда машина уже закопалась;
- неоднозначная работа на высоких скоростях, так как здесь это оборудование бессильно сделать что-либо эффективное;
- невозможность отключить на некоторых авто, которые не позволяют деактивировать весь модуль ESP;
- быстрый износ колодок, если вы постоянно ездите по сколькой или грязной дороге с риском срывания колес в пробуксовку.
ASR не будет оценивать, насколько опасная или безопасная пробуксовка на вашей машине. Она будет срабатывать в любой ситуации, когда датчики показывают буксующее колесо. Конечно, без отключения такой системы вы не сможете продемонстрировать навыки спортивной поездки, полицейских разворотов и красивого контролируемого заноса на снегу. АСР включится в самый ответственный момент и испортит ваш вираж.
Итоги: как можно оценить работу ASR на автомобиле?
Сложно дать однозначную оценку данному комплексу систем безопасности. В составе ESP этот блок хорошо справляется с определенными нюансами на небольшой скорости. А вот при поездке по трассе АСР может даже помешать водителю своими силами исправить ситуацию. Неоднозначной является и польза подтормаживания колеса в процессе пробуксовки.
К сожалению, ASR – это не замена хорошей механической блокировке, так как электроника не может столь же эффективно распределить крутящий момент по всем ведущим колесам. Тем не менее, это выход для тех автомобилей, в которых никакой блокировки и быть не может. Если у вас есть выбор опциональной установки такой системы, то стоит воспользоваться таким предложением.
Если материал был для вас интересен или полезен, опубликуйте его на своей странице в социальной сети:
Добавить комментарий
В начало страницы
ASR – что это такое в автомобиле, функции и устройство системы
Максимальным сцеплением с дорогой обладает колесо, сохраняющее своё пятно контакта протектора в покое относительно поверхности дороги.
Вызвать проскальзывание в этой паре трения может, как торможение автомобиля, так и разгон. Физические явления тут одинаковы, разница только в знаке ускорения, оно будет отрицательным в первом случае и положительным во втором. Но на суть происходящего это не влияет, так как ничего хорошего не несут оба случая.Содержание статьи:
- 1 Зачем в машине система ASR
- 1.1 Принцип работы и функции
- 1.2 Устройство ASR
- 2 Плюсы и минусы антипробуксовочной системы автомобиля
- 3 В чем разница между ESP и ASR
Зачем в машине система ASR
При срыве колёс в скольжение из-за превышения тяговых возможностей двигателя над состоянием дороги и способностями шин, возникают три неприятных последствия:
- нарушается курсовая устойчивость автомобиля из-за того, что колёса, испытывающие избыток тяги, теряют свою курсовую устойчивость, скользящей шине всё равно, продолжать движение по траектории или уходить вбок;
- снижается интенсивность разгона, часть крутящего момента пойдёт на бесполезную раскрутку колеса, а не на ускорение автомобиля;
- ухудшается проходимость, тяга снижается, машина может забуксовать и остановиться, несмотря на вращающиеся на месте ведущие колёса.
Спасти ситуацию может вовремя уменьшенная тяга на проскальзывающем колесе. С этим вполне способен справиться и опытный водитель, но всем прочим гораздо эффективней поможет автоматика.
Да и самого талантливого пилота, даже профессионального гонщика, лучше избавить от необходимости точно дозировать тягу. Поэтому по мере появления быстродействующих и надёжных узлов следящей электроники на машинах стали применяться специальные системы контроля тяги, получившие названия ASR, трекшн контроль или антипробуксовочные системы.
Статья по теме: Что такое Торсионная подвеска автомобиля
Аббревиатуры могут быть разными, поскольку каждая фирма стремится подчеркнуть индивидуальность своих разработок.
Принцип работы и функции
Основная функция ASR заключается в регулировании крутящего момента на начавших пробуксовывать колёсах. Достигаться это может двумя способами – подтормаживанием конкретного колеса или общим снижением тяги двигателя.
В первом случае задействуется имеющаяся на автомобиле антиблокировочная система тормозов (ABS). Её узлы позволяют притормаживать любое колесо независимо от водителя.
Такой способ имеет заметное преимущество в том, что дифференциал ведущей оси способен перебросить часть момента двигателя на второе колесо оси, находящееся в более благоприятных условиях по уровню сцепления. Но на больших скоростях такой приём нежелателен, поскольку создаст эффект векторного управления курсом, опасный момент на руле, и приведёт к ускоренному износу тормозных колодок и дисков.
Поэтому на больших скоростях, обычно это 60-80 км/ч, используется снижение тяги двигателя. Система вполне способна быстро просчитать моментную модель мотора и отрегулировать тягу с учётом предсказания развития ситуации.
То есть не полностью убрать ускорение, а выставить его на безопасный уровень. У этого способа есть свои недостатки, в частности, на труднопроходимой дороге его использовать нежелательно, внезапное снижение мощности быстро приведёт к остановке и застреванию автомобиля.
Устройство ASR
Из функционального рассмотрения понятно, что у ASR имеется два контура управления – по силовому агрегату, то есть двигателю и коробке передач, и по тормозной системе.
Управление силовым агрегатом может вестись разными способами:
- самое простое – это прикрыть дроссель, если он снабжён электронным управлением, но это не очень желательно, поскольку при одних и тех же оборотах меняется его крутящий момент;
- регулировка подачи топлива и момента искрообразования, способ эффективный, но достаточно сложный в реализации, поскольку это вмешательство в самые тонко настроенные режимы управления двигателем;
- блокировка переключения передач автоматической коробкой или принудительное включение нужной передачи, что также может внести элемент неожиданности в работу водителя.
Развитие систем контроля тяги позволяет одинаково эффективно пользоваться всеми возможностями, обеспечивая безопасность и исключая нежелательные ситуации. К тому же эту функцию часто можно отключить с места водителя.
Читайте также: Как устроена подвеска автомобиля и принцип её работы
Управление тормозами ничем не отличается от работы ABS. Используются те же клапаны, подающие или сбрасывающие давление с рабочих тормозных цилиндров, за счёт своего быстродействия позволяющие тонко регулировать тормозное усилие.
Работает также блок управления антиблокировочной системы, а исходная информация для ASR считывается именно с датчиков ABS, установленных на каждом колесе.
Эти датчики подают сигналы о скорости вращения колёс, сравнивая которые и вычисляя скорость автомобиля можно заметить признаки начавшейся пробуксовки.
Созданием необходимого давления тормозной жидкости, оперативным перебросом её через клапаны и накапливанием резервной энергии занимается блок насоса и гидроаккумулятора ABS.
Плюсы и минусы антипробуксовочной системы автомобиля
Не позволяя ведущим колёсам буксовать, система даёт автомобилю, особенно с очень мощным двигателем, несколько полезных возможностей:
- уверенный старт с места в самом эффективном режиме, когда колёса постоянно поддерживаются на грани срыва;
- быстрый набор скорости, ограниченный только коэффициентом сцепления с дорогой, а не способностями водителя;
- уменьшенный износ покрышек на ведущих колёсах;
- повышение безопасности во время прохождения поворотов под тягой на скользкой дороге, система не даёт развернуть машину в неуправляемом заносе;
- экономится топливо, которое не расходуется на бесполезное сжигание резины шин во время пробуксовки на сухом асфальте;
- повышение проходимости, когда вращающемуся колесу не позволяется выкопать под собой яму, где и остаться до прибытия трактора, при этом второе колесо получит дополнительный крутящий момент, что позволит успешно выехать из грязевой засады внатяг.
Есть и недостатки, с которыми разработчики борются, не всегда успешно:
- увеличивается износ тормозных колодок и дисков;
- перегружается дифференциал автомобиля, не всегда рассчитанный на передачу значительной мощности только на одно колесо;
- трудности компромисса при выборе порога срабатывания системы, за которым она активно вмешивается в управление;
- трудности выборочного отключения, если на машине имеется большой набор дополнительных функций автономного управления тормозами и тягой.
В последнее время ASR почти не используется самостоятельно, а работает с другими электронными помощниками, например с системой стабилизации ESP.
В чем разница между ESP и ASR
Обе системы используют одни и те же блоки и каналы управления, но ESP более функциональна, поскольку располагает информацией о траекторных изменениях и может на них влиять.
Эта куда более продвинутая система считывает сигналы с датчиков поворота руля, нажатия педали акселератора, угловых ускорений кузова, может предсказывать дальнейшее развитие событий в самом начале потери стабильности автомобиля и предотвращать сносы и заносы.
ASR же ограничивается только продольными ускорениями, и для неё потеря водителем контроля в повороте – уже нештатная ситуация.
В результате трекшн контроль стал лишь составной частью более сложной системы. Некоторые их функции и аппаратно-программные модули перекрываются, но весь набор у ESP значительно шире.
Поэтому упоминание о наличии в машине, оснащённой ESP, ещё и антипробуксовочной ASR обычно является не более чем маркетинговым ходом. Она там обязательно должна присутствовать по умолчанию.
Что такое ASR? Обзор автоматического распознавания речи
Автоматическое распознавание речи, или ASR, представляет собой использование технологии машинного обучения или искусственного интеллекта (ИИ) для преобразования человеческой речи в читаемый текст. За последнее десятилетие эта область значительно расширилась: системы ASR появились в популярных приложениях, которые мы используем каждый день, таких как TikTok и Instagram для субтитров в реальном времени, Spotify для транскрипций подкастов, Zoom для транскрипций совещаний и т. д.
По мере того, как ASR быстро приближается к уровню человеческой точности, произойдет взрыв приложений, использующих преимущества технологии ASR в своих продуктах, чтобы сделать аудио- и видеоданные более доступными. Уже сейчас API преобразования речи в текст, такие как AssemblyAI, делают технологию ASR более доступной, доступной и точной.
Эта статья призвана ответить на вопрос: Что такое ASR?, а также предоставить всесторонний обзор технологии автоматического распознавания речи, включая:
- История ASR
- Как работает ASR
- Ключевые термины и функции ASR
- Ключ Применение ASR
- Проблемы ASR сегодня
- На горизонте для ASR
История ASR
ASR, какой мы ее знаем, восходит к 1952 году, когда печально известная лаборатория Bell создала «Одри», распознаватель цифр. Одри могла расшифровывать только произносимые числа, но десять лет спустя исследователи улучшили Одри, чтобы она могла расшифровывать элементарные произнесенные слова, такие как «привет».
На протяжении большей части последних пятнадцати лет ASR основывался на классических технологиях машинного обучения, таких как скрытые марковские модели. Хотя точность этих классических моделей когда-то была отраслевым стандартом, в последние годы она вышла на плато, что открыло двери для новых подходов, основанных на передовой технологии глубокого обучения, которая также способствовала прогрессу в других областях, таких как самоуправляемые автомобили.
В 2014 году Baidu опубликовала печально известную статью Deep Speech: масштабирование сквозного распознавания речи 9.0030 . В этой статье исследователи продемонстрировали силу применения исследований глубокого обучения для создания современных и точных систем распознавания речи. Статья положила начало возрождению в области ASR, популяризировав подход глубокого обучения и подняв точность модели за пределы плато и приблизив ее к человеческому уровню.
Не только резко возросла точность, но и значительно улучшился доступ к технологии ASR. Десять лет назад клиентам приходилось заключать длительные и дорогостоящие контракты на корпоративное программное обеспечение, чтобы лицензировать технологию ASR. Сегодня разработчики, начинающие компании и представители списка Fortune 500 имеют доступ к передовой технологии ASR через простые API, такие как Speech-to-Text API AssemblyAI.
Давайте более подробно рассмотрим эти два основных подхода к ASR.
Как работает ASR
В настоящее время существует два основных подхода к автоматическому распознаванию речи: традиционный гибридный подход и сквозной подход глубокого обучения.
Традиционный гибридный подход
Традиционный гибридный подход является устаревшим подходом к распознаванию речи и доминировал в этой области в течение последних пятнадцати лет. Многие компании до сих пор полагаются на этот традиционный гибридный подход просто потому, что так всегда делалось — существует больше знаний о том, как построить надежную модель, благодаря обширным доступным данным исследований и обучения, несмотря на плато в точности.
Вот как это работает:
Традиционные системы HMM и GMM
Традиционные HMM (скрытые марковские модели) и GMM (модели смесей Гаусса) требуют принудительного выравнивания данных. Принудительное выравнивание — это процесс получения текстовой транскрипции звукового речевого сегмента и определения того, где во времени встречаются определенные слова в речевом сегменте.
Как вы можете видеть на иллюстрации выше, этот подход сочетает в себе лексическую модель + акустическую модель + языковую модель для прогнозирования транскрипции.
Каждый шаг более подробно описан ниже:
Модель лексикона
Модель лексикона описывает фонетическое произношение слов. Обычно вам нужен собственный набор фонем для каждого языка, созданный опытными фонетиками вручную.
Акустическая модель
Акустическая модель (AM) моделирует акустические модели речи. Задача акустической модели состоит в том, чтобы предсказать, какой звук или фонема произносится в каждом сегменте речи, на основе принудительно выровненных данных. Акустическая модель обычно представляет собой вариант HMM или GMM.
Модель языка
Модель языка (LM) моделирует статистику языка. Он узнает, какие последовательности слов, скорее всего, будут произнесены, и его задача — предсказать, какие слова последуют за текущими словами и с какой вероятностью.
Декодирование
Декодирование — это процесс использования лексики, акустической и языковой модели для создания стенограммы.
Недостатки традиционного гибридного подхода
Хотя традиционный гибридный подход к распознаванию речи по-прежнему широко используется, у него есть несколько недостатков. Более низкая точность, как обсуждалось ранее, является самой большой. Кроме того, каждую модель необходимо обучать независимо, что отнимает много времени и сил. Принудительно выровненные данные также трудно получить, и требуется значительное количество человеческого труда, что делает их менее доступными. Наконец, необходимы эксперты для создания пользовательского фонетического набора, чтобы повысить точность модели.
Сквозной подход к глубокому обучению
Сквозной подход к глубокому обучению — это новый взгляд на ASR и то, как мы подходим к ASR здесь, в AssemblyAI.
Как работают сквозные модели глубокого обучения
С помощью сквозной системы вы можете напрямую преобразовать последовательность входных акустических характеристик в последовательность слов. Данные не нужно принудительно выравнивать. В зависимости от архитектуры систему глубокого обучения можно научить производить точные стенограммы без модели словаря и языковой модели, хотя языковые модели могут помочь получить более точные результаты.
См.: Обучение моделей глубокого обучения.CTC, LAS и RNNT
CTC, LAS и RNNT — популярные сквозные архитектуры глубокого обучения для распознавания речи. Эти системы могут быть обучены для получения сверхточных результатов без использования принудительно выровненных данных, моделей лексики и языковых моделей.
Узнать больше: Сравнение сквозных архитектур распознавания речиПреимущества сквозных моделей глубокого обучения
Сквозные модели глубокого обучения легче обучать и требуют меньше человеческого труда, чем традиционный подход. Они также более точны, чем традиционные модели, используемые сегодня.
Сообщество исследователей глубокого обучения активно ищет способы постоянного улучшения этих моделей с использованием последних исследований, поэтому в ближайшее время не стоит беспокоиться о плато точности — на самом деле, мы увидим, как модели глубокого обучения достигнут точности человеческого уровня. в ближайшие несколько лет.
Основные термины и функции ASR
Акустическая модель: Акустическая модель принимает звуковые волны и предсказывает, какие слова присутствуют в волновой форме.
Модель языка: Языковая модель может использоваться, чтобы помочь направлять и корректировать предсказания акустических моделей.
Частота ошибок в словах : Стандартное в отрасли измерение точности транскрипции ASR по сравнению с транскрипцией человека.
Диаризация говорящего: Отвечает на вопрос, кто когда говорил? Также называется этикетками динамиков.
Пользовательский словарь : Пользовательский словарь, также называемый Word Boost, повышает точность списка определенных ключевых слов или фраз при расшифровке аудиофайла.
Анализ тональности: Тональность, обычно положительная, отрицательная или нейтральная, определенных сегментов речи в аудио- или видеофайле.
См. дополнительные функции, характерные для AssemblyAI.
Основные области применения ASR
Огромные достижения в области ASR привели к корреляции с ростом API преобразования речи в текст. Компании используют технологию ASR для приложений преобразования речи в текст в самых разных отраслях. Вот некоторые примеры:
Телефония: Отслеживание вызовов, решения для облачных телефонов и контакт-центры нуждаются в точных транскрипциях, а также в инновационных аналитических функциях, таких как Conversation Intelligence, аналитика вызовов, диаризация говорящих и многое другое.
Видеоплатформы: Асинхронные и асинхронные субтитры к видео в реальном времени являются отраслевым стандартом. Платформы редактирования видео (и видеоредакторы) также нуждаются в категоризации контента и модерации контента для улучшения доступности и поиска.
Медиа-мониторинг: API-интерфейсы преобразования речи в текст помогают транслировать телепередачи, подкасты, радио, а также быстрее и точнее обнаруживать упоминания брендов и других тем для повышения качества рекламы.
Виртуальные собрания: Платформы для проведения совещаний, такие как Zoom, Google Meet, WebEx и другие, нуждаются в точных расшифровках и возможности анализировать этот контент, чтобы получать ключевые идеи и действовать.
Выбор API для преобразования речи в текст
Поскольку на рынке представлено больше API, как узнать, какой API для преобразования речи в текст лучше всего подходит для вашего приложения?
Ключевые моменты, о которых следует помнить, включают:
- Насколько точен API.
- Какие дополнительные функции предлагаются.
- На какую поддержку вы можете рассчитывать.
- Прозрачность ценообразования и документации.
- Безопасность данных.
- Инновации компании.
Проблемы ASR сегодня
Одной из основных проблем ASR сегодня является постоянное стремление к уровням человеческой точности. Хотя оба подхода ASR — традиционный гибрид и сквозное глубокое обучение — значительно более точны, чем когда-либо прежде, ни один из них не может претендовать на 100% человеческую точность. Это потому, что в том, как мы говорим, так много нюансов, от диалектов до сленга и подачи. Даже самые лучшие модели глубокого обучения не могут быть обучены охватывать весь этот длинный хвост пограничных случаев без значительных усилий.
Некоторые считают, что проблему точности можно решить с помощью пользовательских моделей преобразования речи в текст. Однако, если у вас нет очень конкретного варианта использования, такого как речь детей, пользовательские модели на самом деле менее точны, их сложнее обучать и на практике они дороже, чем хорошая сквозная модель глубокого обучения.
Еще одной серьезной проблемой является конфиденциальность преобразования речи в текст для API. Слишком много крупных компаний ASR используют данные клиентов для обучения моделей без явного разрешения, что вызывает серьезные опасения по поводу конфиденциальности данных. Непрерывное хранение данных в облаке также вызывает опасения по поводу потенциальных нарушений безопасности, особенно если необработанные аудио- или видеофайлы или текст транскрипции содержат информацию, позволяющую установить личность.
На горизонте для ASR
Поскольку область ASR продолжает расти, мы можем ожидать большей интеграции технологии преобразования речи в текст в нашу повседневную жизнь, а также более широкое применение в промышленности.
Мы уже наблюдаем прогресс в ASR и связанных с ним областях ИИ, происходящих ускоренными темпами, таких как ChatGPT OpenAI, пространства HuggingFace и приложения ML, а также Conformer-1 AssemblyAI, современная модель распознавания речи, обучен на 650 тысячах часов аудиоданных.
Что касается построения моделей, мы также ожидаем увидеть переход к самоконтролируемой системе обучения для решения некоторых проблем с точностью, описанной выше.
Сквозные модели глубокого обучения нуждаются в данных. Например, наша модель ASR в AssemblyAI обучается на 100 000 часов необработанных аудио- и видеоданных для обучения, что обеспечивает лучший в отрасли уровень точности. Однако получение человеческих транскрипций для тех же обучающих данных было бы почти невозможным, учитывая временные ограничения, связанные со скоростью обработки человеком.
Здесь могут помочь системы глубокого обучения с самоконтролем. По сути, это способ получить множество неразмеченных данных и построить на их основе базовую модель. Затем, поскольку у нас есть статистические знания о данных, мы можем точно настроить их для последующих задач с меньшим объемом данных, что сделает его более доступным подходом к построению моделей. Это захватывающая возможность с глубокими последствиями для области.
Если этот переход произойдет, ожидайте, что модели ASR станут еще более точными и доступными, что сделает их использование и признание более распространенным.
Программное обеспечение для автоматического распознавания речи (ASR) — введение действительно «по-человечески».
Но во многих отношениях мы неуклонно продвигаемся к этому будущему сценарию удивительно быстрыми темпами благодаря продолжающемуся развитию так называемой технологии автоматического распознавания речи. И, по крайней мере, пока что он обещает действительно полезные инновации в пользовательском опыте для всех видов приложений.
Автоматическое распознавание речи или ASR , как известно вкратце, — это технология, которая позволяет людям использовать свой голос для общения с компьютерным интерфейсом таким образом, который в самых сложных вариациях напоминает обычный человеческий разговор. .
Самая продвинутая версия разрабатываемых в настоящее время технологий ASR вращается вокруг того, что называется Обработка естественного языка или сокращенно NLP . Этот вариант ASR наиболее близок к реальному общению между людьми и машинным интеллектом, и хотя ему еще предстоит пройти долгий путь, прежде чем он достигнет вершины развития, мы уже видим некоторые замечательные результаты в виде интеллектуальных интерфейсов для смартфонов, таких как программа Siri на iPhone и других системах, используемых в бизнесе и передовых технологиях.
Однако, даже эти программы НЛП, несмотря на «точность» примерно 96–99 %, могут достичь таких результатов только в идеальных условиях, в которых вопросы, заданные им людьми, относятся к простому типу «да» или «нет» или имеют только ограниченное количество возможных вариантов ответа на основе выбранных ключевых слов (подробнее об этом чуть позже).
Теперь, когда мы рассказали о чудесных перспективах технологии ASR, давайте посмотрим, как эти системы работают сегодня, поскольку мы их уже используем.
Большая часть информации, которую мы собираемся осветить, также объяснена со значительными, очень наглядными деталями дополнительной инфографикой, созданной профессионалами программного обеспечения ASR в West Interactive. Вы действительно должны также взглянуть на их сообщение здесь.
Основное руководство по работе автоматического распознавания речи
Основная последовательность событий, которая заставляет любое программное обеспечение автоматического распознавания речи, независимо от его сложности, подбирать и разбирать ваши слова для анализа и ответа, выглядит следующим образом:
- Вы говорите с программой через аудиопоток
- Устройство, с которым вы разговариваете, создает волновой файл ваших слов
- Волновой файл очищается путем удаления фонового шума и нормализации громкости
- Полученная отфильтрованная форма волны затем разбивается на так называемые фонемы. (Фонемы являются основными строительными блоками звуков языка и слов. В английском языке их 44, состоящих из звуковых блоков, таких как «wh», «th», «ka» и «t».
- Каждая фонема подобна звену цепи, и анализируя их последовательно, начиная с первой фонемы, программное обеспечение ASR использует статистический вероятностный анализ для вывода целых слов, а затем полных предложений
- Ваш ASR, теперь «понявший» ваши слова, может осмысленно ответить вам.
Некоторые ключевые примеры вариантов автоматического распознавания речи
Двумя основными типами вариантов программного обеспечения для автоматического распознавания речи являются направленные диалоги и разговоры на естественном языке (то же самое, что и обработка естественного языка, о которой мы упоминали выше).
Направленный диалог Разговоры представляют собой гораздо более простую версию ASR в действии и состоят из машинных интерфейсов, которые устно говорят вам ответить определенным словом из ограниченного списка вариантов, тем самым формируя свой ответ на ваш узко определенный запрос. Автоматизированный банкинг по телефону и другие интерфейсы обслуживания клиентов обычно используют программное обеспечение ASR для направленного диалога.
Разговоры на естественном языке (НЛП, о котором мы говорили во введении) — это гораздо более сложные варианты ASR, и вместо сильно ограниченного меню слов, которые вы можете использовать, они пытаются имитировать реальный разговор, позволяя вам использовать открытый диалог. формат чата с ними. Интерфейс Siri на iPhone — очень продвинутый пример таких систем.
Как работает обработка естественного языка?
Учитывая важность НЛП как будущего направления технологии РАС, оно гораздо важнее, чем направленный диалог, при разработке систем распознавания речи.
Он работает таким образом, чтобы в общих чертах имитировать то, как люди сами понимают речь и реагируют соответственно.
Типичный словарный запас системы НЛП ASR состоит из 60 или более тысяч слов. Теперь это означает более 215 триллионов возможных комбинаций слов, если вы скажете всего три слова подряд!
Тогда очевидно, что для системы НЛП ASR было бы крайне непрактично сканировать весь свой словарь на наличие каждого слова и обрабатывать их по отдельности. Вместо этого система естественного языка предназначена для реагирования на гораздо меньший список выбранных «помеченных» ключевых слов, которые дают контекст для более длинных запросов.
Таким образом, используя эти контекстуальные подсказки, система может намного быстрее определить, что именно вы ей говорите, и узнать, какие слова используются, чтобы она могла адекватно ответить.
Например, если вы произносите такие фразы, как «прогноз погоды», «проверьте мой баланс» и «я хочу оплатить свои счета», помеченные ключевые слова, на которых фокусируется система НЛП, могут быть «прогноз», «баланс» и «счета». Затем он будет использовать эти слова, чтобы найти контекст других слов, которые вы использовали, и не совершать ошибок, таких как путаница «погода» с «будь то».
Настройка
Тест : Как ASR «учится» у людейОбучение систем ASR, будь то НЛП или системы направленного диалога, работает на двух основных механизмах. Первый и более простой из них называется «Настройка человека», а второй, гораздо более продвинутый вариант называется «Активное обучение».
Настройка человека: Это относительно простое средство обучения ASR. В нем программисты-люди просматривают журналы разговоров данного программного интерфейса ASR и просматривают часто используемые слова, которые он должен был услышать, но которых нет в его предварительно запрограммированном словаре. Затем эти слова добавляются в программу, чтобы она могла расширить свое понимание речи.
Активное обучение: Активное обучение — это гораздо более сложный вариант ASR, и его особенно испытывают с версиями технологии распознавания речи NLP. При активном обучении само программное обеспечение запрограммировано на автономное изучение, сохранение и усвоение новых слов, таким образом постоянно расширяя свой словарный запас по мере того, как оно подвергается воздействию новых способов говорить и говорить.
Это, по крайней мере теоретически, позволяет программе улавливать более конкретные речевые привычки конкретных пользователей, чтобы лучше общаться с ними.
Так, например, если данный пользователь-человек продолжает отрицать автозамену определенного слова, программное обеспечение НЛП в конечном итоге научится распознавать другое использование этого конкретного человека этого слова как «правильную» версию.
Инфографика об автоматическом распознавании речи (ASR) от West InteractiveХотите узнать больше?
Хотите получить признанный в отрасли сертификат о прохождении курсов по UX-дизайну, дизайн-мышлению, дизайну пользовательского интерфейса или другим смежным темам дизайна? Онлайн-курсы по UX от Interaction Design Foundation могут дать вам отраслевые навыки для продвижения вашей карьеры в области UX.