Голосовые технологии

Голосовая технология представляет собой организационно-технологический комплекс, предназначенный для передачи информации без ее представления в бумажном или электронном виде, и предоставляющий возможность для выполнения на этой основе ряда логистических операций. Компьютерное обеспечение этих технологий позволяет адекватно воспринимать человеческую речь, а голосовой синтезатор - моделировать ответ в аналогичном виде.

Аппаратура, используемая в этой технологии, представляет собой малогабаритный беспроводной компьютер с программным обеспечением, способный взаимодействовать с оператором в диалоговом режиме.

Аппаратура оператора с помощью радиосвязи взаимодействует с главным компьютером, как правило, или системы управления складом (WMS) или системы планирования ресурсов предприятия (ERP).

Система управления складом (WMS) выдает управленческие указания не в виде традиционных печатных заказ-нарядов, в голосовой форме посредством радиосигналов. Данные о количестве и местонахождении товаров, которые следует отобрать, преобразуются из цифровой формы в голосовое сообщение, которое хорошо понимает опе ратор. Такая технология позволяет успешно обойтись и без радио-и инфракрасных сканирующих систем. По выполнении каждой операции оператор докладывает о ее завершении по головному телефону. Речь оператора идентифицируется голосовым компьютером, далее цикл повторяется.

Обычно применяется два метода преобразования текстовых команд в речь, которую слышит оператор: «Текст в речь» (Text-to-Speech, TTS) и «Цифровая запись речи» (Digitized Speech).

«Текст в речь» - наиболее широко используемая современная технология воспроизведения речевых команд в голосовых системах. Как следует из ее названия, программное обеспечение системы TTS преобразует текстовые команды, поступающие от WMS, в синтезированные (генерируемые компьютером) голосовые команды, которые содержат указания оператору, в том числе главные: где именно следует комплектовать следующий заказ и количество подбираемых продуктов. Генерируемая компьютером голосовая команда звучит как всем знакомый голос из телефона, сообщающий о неправильно набранном номере, или голос автомобильной навигационной системы, так что операторы привыкают к голосу за считаные минуты. Большинство операторов, ежедневно работающих с этой системой, предпочитают получать информацию очень быстро, поэтому голосовая система должна иметь простой и понятный регулятор темпа речи. Исходя из индивидуальных особенностей или характера выполняемой работы, оператор может самостоятельно увеличивать темп поступления команд. Благодаря такой гибкости системы увеличивается производительность труда, причем точность выполнения заданий при этом не страдает. Устройства преобразования текста в речь способны работать на многих языках, благодаря чему каждый оператор может получать информацию на понятном ему языке, регулируя к тому же и темп речи. Так, во многих существующих голосовых системах устройства преобразования текста в речь могут работать на 14 языках.

«Цифровая запись речи». Система «Записи и воспроизведения» (Record and Playback) воспроизводит предварительно записанную речь реального человека, которая хранится в виде цифровых файлов, воспроизводимых по мере необходимости. В этом случае голос звучит гораздо реальней, но возможности системы серьезно ограничиваются воспроизведением только тех фраз, которые были заранее записаны.

Учитывая динамичный характер работы абсолютного большинства складских комплексов с их постоянной сменой номенклатуры товаров, лексикон систем с «цифровой записью речи» весьма трудно поддерживать в адекватном состоянии (и в многоязычном воспроиз ведении). В результате не все группы работников могут быть обеспечены полной информацией для выполнения профессиональных обязанностей.

Кроме информирования оператора голосовая система должна быть способна распознавать его ответы. Чтобы завершить информационный цикл, оператор должен ответить голосовому компьютеру, что он получил и понял команду. На коммерческом предприятии, где производительность и точность жизненно необходимы, очень важно, чтобы голосовая система распознавала произнесенное слово или фразу с первого раза и без ошибок. Чтобы обеспечить это, лучше всего выбирать систему, способную распознавать всевозможные человеческие голоса - мужские и женские, тихие и громкие, с различными акцентами, а кроме того, надежно проверенную в условиях реальной эксплуатации.

В настоящее время предлагаются системы распознавания речи двух типов, преобразующие человеческую речь в информацию, понятную компьютеру:

• системы распознавания конкретного говорящего;

• системы, распознающие любого говорящего.

Системы распознавания конкретного говорящего обычно вдвое точнее систем, распознающих любого говорящего. Поэтому они более предпочтительны для применения в промышленных целях. Однако эти системы требуют обучения голосу каждого оператора. Операторы по указанию голосовой системы произносят ряд тестовых слов и команд. Подобным образом голосовая система обучается понимать голос конкретного человека, характеристики которого регистрируются и запоминаются. Вся процедура регистрации каждого образца голоса со стандартным набором слов выполняется только один раз и занимает приблизительно 20 минут. Перед началом рабочей смены оператор подключает головной телефон к голосовому компьютеру и идентифицируется в компьютере. Если образец голоса оператора еще не записан в памяти индивидуального компьютера, он загружается быстрее, чем за минуту из главного компьютера.

Системы распознавания любого говорящего, которые используются в управляемых голосом справочных системах, способны «понимать» любой голос и не нуждаются в «обучении» речи каждого оператора. Технология распознавания любого говорящего в настоящее время широко применяется, но не рекомендуется для эксплуатации в динамично работающем логистическом комплексе. Основным недостатком ее является то, что на первый взгляд кажется преимуществом: она распознает речь любого оператора на основании некоего общего виртуального образца, а потому не способна различить в речи операторов тонких оттенков различных акцентов и других особенностей речи. Такие системы будут просить оператора повторять слова, что снижает производительность и мешает работе.

Системы со словарями большого и малого объема Оценивая трудоемкость обучения голосовой системы распознаванию речи каждого оператора, следует ответить на вопрос: скольким словам нужно обучить голосовую систему, чтобы она могла нормально работать? Существует два подхода к решению этой важной задачи: использование в системе словаря большого или малого объема.

Системы со словарем малого объема обучаются распознавать очень ограниченное число слов, поскольку, к примеру, в складских работах одни и те же операции чаще всего повторяются (подбор заказа, пополнение складских запасов, расстановка товаров по местам). Лексикона приблизительно из 100 слов обычно бывает достаточно, при этом основная группа (примерно 20 слов) используется наиболее часто. Из них и составляются все команды на выполнение работ, которых достаточно для ежедневной деятельности большинства складских комплексов. К тому же пользователи, наделенные правом изменять настройки системы, могут вносить собственные коррективы: добавлять в словарь новые слова, необходимые для работы, и удалять ненужные.

Системы со словарем большого объема обычно различают более тысячи слов. Такой системе сложнее отличить одно произнесенное слово от другого, и поэтому ее точность меньше.

Скорость общения с оператором имеет очень большое значение для работы, особенно если из-за запаздывания снижается производительность. Во время складских работ потеря даже нескольких секунд на каждой из тысяч команд, получаемых оператором в течение рабочего дня, оборачивается немалыми убытками.

Из вышесказанного мы видим, что голосовая система со словарем малого объема способна обеспечивать всю деятельность склада, быстрый поиск информации и высокую точность. В свою очередь использование систем со словарем большого объема имеет незначительные преимущества, но с большой долей риска они могут работать неточно, поэтому не имеют широкого распространения на современных складах. Уменьшение числа слов в диалоге с системой ускоряет технологический процесс. Если для работы системы требуется, чтобы оператор произносил дополнительные слова до и после обмена информацией, производительность труда может значительно пострадать. В некоторых системах требуется отсутствие пауз между словами и произнесение всей фразы очень быстро и без запинок, что на практике не всегда выполнимо. Пользователям надо, чтобы информацию в голосовой компьютер можно было передавать четким и естественным голосом без пауз. Выбирая голосовую систему, следует помнить об этом.

Комплексная голосовая система При выборе голосовой системы необходимо убедиться, что все ее компоненты - головной телефон, программное обеспечение и соответствующая голосовая технология - способны правильно работать как единое целое.

Все компоненты голосовой системы должны иметь качество одинакового уровня. Для непромышленного учреждения, например для информационно-справочной телефонной службы, качество обычных предлагаемых на рынке головных телефонов может быть удовлетворительным. Однако на складе они, возможно, будут работать очень плохо из-за механических воздействий и радиопомех, поэтому должны быть разработаны специально для условий складских комплексов. Компании, успешно эксплуатирующие голосовые системы, работают только с теми поставщиками, которые полностью контролируют качество всех компонентов системы. Такие поставщики предоставляют систему как единый продукт, все компоненты которого разработаны для эксплуатации в комплексе и тщательно проверены.

В крупном складском комплексе большинство операторов, скорее всего, будут пользоваться голосовой системой в течение всего рабочего дня. Они полагаются на эту технологию и рассчитывают, что система поможет им в выполнении разнообразных складских работ. Наряду с этим, на складе, возможно, будет некоторое число пользователей, работающих с голосовой системой от случая к случаю.

Учитывая наличие пользователей обоих типов, складская компания должна подобрать голосовую систему, лучше всего обеспечивающую выполнение всех задач как при временном использовании, так и при непрерывном.

Некоторые поставщики предлагают голосовую аппаратуру в форме компактных переносных узлов, но в большинстве случаев ее носят на теле. Небольшой компьютер с элементами питания оператор обычно помещает на поясе: эту половину системы можно назвать «клиент». При помощи радиоволн «клиент» связан с главным ком пьютером, так называемым сервером - второй половиной системы. Сервер посылает в поясной компьютер команды от системы \VJV1S о номенклатуре и ассортименте товаров, какие следует подобрать. Эта информация затем доводится сервером до оператора либо путем ее озвучивания «в реальном времени» (т. е. по мере необходимости), либо в составе регулярно поступающей порции информации.

Специалисты рекомендуют выбирать поставщиков голосовых систем, которые предлагают операторскую («клиентскую») аппаратуру, носимую на поясе или в руках, а не расположенную в сервере. Такие системы называют «толстый клиент». Если распознавание голосовых команд производится в сервере, а «клиент» - просто передатчик данных, то такая система называется «тонкий клиент».

Архитектура «толстого клиента» имеет несколько преимуществ. Самое главное: благодаря достижениям последних лет в технологии даже очень компактные компьютеры обладают достаточными возможностями по распознаванию речи. Если же обработка голосовых команд производится в сервере, информация передается от «клиента» (оператора) на сервер и обратно с задержкой. Увеличение времени реагирования - серьезная помеха работе и причина снижения производительности оператора. Наконец, системы типа «толстый клиент» обладают значительным запасом надежности. Если возникают проблемы с конкретным поясным компьютером, это не влияет на качество работы аппаратуры, обслуживающей других операторов. Однако, когда преобразование голосовых команд производится в сервере и в нем возникает неисправность, все операторы теряют возможность работать.

Голосовые технологии, созданные путем совершенствования старых, неголосовых систем, должны быть основаны на надежной и проверенной платформе с аппаратным и программным обеспечением - этот момент весьма важен для работы в современных складских комплексах. Качество их функционирования и возможности, как и любых систем, зависят от характеристик составляющих компонентов.

Головные телефоны. В последнее время головные телефоны были значительно усовершенствованы. Обеспечение высокого качества приема-передачи речи в различных сложных условиях во время работы на складах и оптовых базах - вот основная проблема голосовых систем, предназначенных для максимально длительного использования. В новейших микрофонах имеется система шумоподавления, значительно повышена эффективность передачи звука, благодаря чему производительность оператора возрастает.

Присоединительные штекеры головных телефонов. Почти во всех переносных аппаратах со встроенными микрофонами для подключения головных телефонов используется стандартный имеющийся в широкой продаже 1/8-дюймовый (3,2 мм) штекер для аудиоаппаратуры. Если штекер аудиоприбора выходит из строя или создает помехи при передаче звука, работа голосовой системы нарушается. При ослаблении контакта штекера в гнезде возникают помехи электростатического происхождения, речь оператора становится неразборчивой для компьютера. Специально разработанные для складских голосовых систем штекеры рассчитаны на интенсивную эксплуатацию в тяжелых условиях и могут выдержать 10 ООО циклов в год. Поэтому срок их службы составляет около 4 лет. Кроме того, в системах, специально разработанных для работы на складах, неисправности штекеров практически не влияют на общую производительность.

Условия работы. Голосовая система должна быть укомплектована элементами питания, способными обеспечивать аппаратуру энергией в течение 10--12 ч. При замене или подзарядке элементов питания производительность оператора снижается, и смысл в применении голосовой системы теряется, повысить производительность не удается. Поскольку оператор во время работы должен постоянно носить голосовую аппаратуру, следует, выбирая систему, учитывать ее размеры и массу (с элементами питания). Конечно, рекомендуется выбирать аппаратуру наименьшего размера и массы.

Как и любое оборудование, применяемое на складе, голосовая система должна быть устойчивой к тяжелым условиям эксплуатации.

В течение рабочего дня она должна устойчиво работать при температурах от обычной комнатной до -29 °С в холодильных камерах и до +50 °С в специальных помещениях с высокой температурой.

Влажность также может изменяться в пределах от 5 до 90%. Аппаратура должна быть надежно защищена от воздействий окружающей среды - пыли и влаги, выдерживать частые падения на цементный пол с высоты 1,52-1,83 м.

⇐Ит-аутсорсинг | Информационные системы и технологии | Современные системы управления складом wms (warehouse management system)⇒