
книги из ГПНТБ / Чачко А. Человек за пультом (Очерки антропотехники)
.pdfными. Потому что речевой сигпал, преобразованный микро фоном в переменное напряжение, один занимал весь провод. Как передать по проводу много речей одновремен но, как уплотнить каналы связи?
Простейший прием — передавать каждый разговор по особой частоте, тогда они пе станут сталкиваться друг с другом. Но не исчезнет другая трудность — обязатель ность сохранения, пусть на иной частоте, профиля сигна лов, всех этих гребешков и впадин, которые и есть слова, паузы, тембр и окраска голоса.
Вот если бы разложить «профиль» на элементарные составляющие, разобрать зубчатую стенку по камушкам, по кирпичикам, да поделить эти кирпичи па кучки по ти пам и сортам. Тогда б можно было дать сортам и типам очень короткие имена, без просветов уложить эти имена, слить, по фетовскому предложению, в единое слово грусть и печаль. И бросить это спрессованное слово в канал связи, чтоб провод унес его вдаль. А на приемном конце канала распустить слово — брикет, обратить его в членораздель ную речь.
Частотное уплотнение умещает в одном канале сотни переговоров, структурное уплотнение — десятки тысяч речей.
Чтобы спрессовать речевую структуру, нужно уметь выделять в речи постоянные составляющие. Но что являет ся «кирпичами» речи? Буквы? О нет, человек, даже читая алфавит, не может произнести «чистую букву»; он выгова ривает звук «бэ» или «ббъ», но не «б». Буквы — идеаль ные сущности, пригодные для письма, но не встречающиеся в речи.
Речь состоит из фонем. Ученые выделили около 48 раз-
пых фонем. Различие очевидпо |
на фазовом |
портрете: |
|
от фонемы к |
фонеме меняется |
длительность |
звучания, |
максимальная |
амплитуда — рост |
наивысшего |
всплеска |
99
сигнала, спектр сигнала — число, распределение и ампли туды зубцов и впадин.
Прекрасно, мы имеем индивидуальные портреты фонем, следовательно, можем построить устройство, распознающее их в речи. Не только можем. Построили. С 20-х годов соору жены сотни таких устройств. И многие из них — чудеса изобретательности. И большинство — мгновенно распознает отдельные фонемы.
А на слитной речи — спотыкаются. Фонемы — не люд ские лица в толпе. Внимательный наблюдатель различает их потому, что каждое существует само по себе, оно рядом с другими, но не сливается. Фонемы в живой речи сцеп ляются, наскакивают друг на друга, не берегут свои «лица».
Вот камень, о который затупляется коса распознавания речи. В телефонные времена, когда мы умели только прессовать да передавать сигналы, камень этот был непре одолим. Но в дни кибернетики, в дни преобразования информации, осуществима ретушь фазовых портретов. Можно убрать синяки и шишки, если только лицо фонемы не исказилось до неузнаваемости.
Потом слить реконструированные фонемы в слова и со поставить фазовый портрет образцового слова с только что обретенным портретом. Совпадает? Значит, оно, роди мое. Не совпадает? Возврат подозрительных фонем на переретушь. И снова сборка-проверка. Операции ретуши, воссоединения и сопоставления под силу только вычисли тельной машине.
Мы все время обсуждаем некую «среднюю речь». ЦВМ же, увы, имеет дело с речью индивидуальной, с мане рой говорить каждого. Запинки и тягучесть, глотание звуков и слогов, переменность темна — наша речь скорее
состоит из |
огрехов, чем из образцовых борозд. |
Чтобы |
сегодняшняя ЦВМ поняла оператора, он должен: |
в па |
|
Г о в о р и т ь |
м е д л е н н о . Если мы не вещаем впрок, |
100
мять ЦВМ, |
а хотим |
контролировать и управлять, ЦВМ |
справляется с 20 словами в минуту. |
||
Г о в о р и т ь |
р а з д е л ь н о . Между словами обязателен интер |
|
вал — момент молчания. |
||
Г о в о р и т ь |
т о л ь к о |
и з в е с т н ы е с л о в а . Словарь машины |
составляет 30—100 слов. С большим электронная Эллочка не справляется.
Г о в о р и т ь з н а к о м ы м г о л о с о м . Кроме программ различе
ния и ретуши фонем, воссоединения и сопоставления слов, в ЦВМ хранятся индивидуальные характеристики речи каждого оператора. Они многократно используются при ретуши. Если хочешь говорить с машиной, сначала представься, назовись, чтобы ЦВМ знала с кем имеет дело, а потом говори, но только с чувством, с толком, с расста новкой. А если кто, как сказочный волк, способен пере
ковать свой |
голос, машина, естественпо, отопрется-отво- |
||
рится. |
|
|
Разговор с машиной при словаре |
Теперь справка. |
|||
50 слов |
и |
среднем |
темпе 20 слов в минуту требует |
250 000 |
слов |
в памяти и быстродействия в 50 000 двух |
адресных операций в секунду. Много ли это? Судите сами: еще в 1950 году не было машины, способной справиться т о л ь к о с подобным разговором, где уж там контролировать или управлять.
Как расширить речевые возможности ЦВМ? Быть мо жет, использовать принципы адаптации? Идея адаптации, приспособления — один из самых сильных ходов киберне тики. Она появилась сначала в автоматическом регулиро вании, этом горниле способов контроля и управления. Если объект известен (написана его п е р е д а т о ч н а я ф у н к ц и я — формула поведения при внезапном толчке), то к нему легко подбирается автоматический регулятор, подавляющий толчки. А если объект пеизвестен? Или если его характе ристики меняются в ходе управления?
Ю1
Тогда либо нельзя выбрать регулятор, либо найденный
для одного набора характеристик автомат |
не справится |
с новой ситуацией — станет подавлять не |
существующие |
толчки и бездействовать при действительных возмущениях. Ситуация, когда объект регулирования известен, а ха рактеристики его неизменны, встречается в современной технике гораздо реже, чем обратное положение... Прошу прощения, мне кажется, что приблизительность нашего
разговора уводит нас от истины. Лучше по пунктам:
1. Методы выбора регуляторов для известных объек тов — гордость каждого автоматчика. Это слияние дерзости математического замысла и филигранности исполнения. Это наша юность и это сегодняшний день тысяч установок и производств. Их характеристики изучают. Математи чески описывают. Если они ползучие, разумно заморажи вают. И регулируют, хорошо, полезно, надежно автомати чески регулируют бесчисленные объекты. «Я классицизму отдал честь».
2. Но, кроме пространств, освещенных солнцем, кото рые охватывает молодая и ловкая теория, всегда остаются иные теневые участки. Ноздревы в науке на всякий случай заявляют, что и тот лес — тоже их. Деловые ученые пони мают, что тот лес они не осилят, но деловым ученым некогда — они рубят, где получается. И только ученые совестливые всё пишут, напоминают: там совсем не так,
надо бы заняться, это важно.
3. Причудлива игра света и тени. Казалось, только все
окрест было |
залито |
солнцем, а глядишь — солнце лишь |
на' дальнем |
пятачке. |
Ты в тени и все в тени. В конце |
50-х начале 60-х годов все чаще стали встречаться объек ты-маски. Как выяснить динамические характеристики установки, которой реально нет (она еще на ватманском листе), как узнать характер до рождения? И, как быть, если характеристики эти {щстро текут? Ракета, до краев
№
наполненная топливом, и пустая ракета — дипамнческие антиподы, а между двумя этими состояниями только
минуты пути. |
приспосабливаться |
и к |
неизвестности |
|
4. |
Остается |
|||
и к изменениям. Например, так: регулятор шлет на объект |
||||
пробный |
сигнал. |
По реакции на этот |
сигнал |
он судит |
о характеристиках объекта в данный момент. |
И находит |
соответствующее, сиюминутное воздействие. Объект пере местился в пространстве характеристик (не путать с прост ранством параметров, о котором была речь, когда мы рисовали световым карандашом: здесь меняются не выход ные величины, а внутренние свойства объекта) — регуля тор-приспособленец тотчас же изменил свои воздействия. Возникли две следящие системы: одна — простая и быст рая — наблюдает за параметрами; другая — помудренее и помедленнее не упускает характеристик и служит для первой наставником.
Такова адаптивная система в автоматическом регули ровании. Например, всережимный регулятор топлива для энергоблока. А в распознавании речи? Неизвестными объектами оказываются здесь новые люди и новые слова.
Сначала о людях. Машина может посылать свежим операторам пробные сигналы — просить их произнести те или иные слова, досконально известные ЦВМ. По этим словам машина выявляет особенности произношения — чужой прежде оператор становится добрым знакомым. Его речевая карточка присоединяется к карточкам известных машине операторов.
Не всегда и не всюду просьба произнести пробное слово уместна. Если оператор занят контролем или управлением, а машина начнет приставать со своими вопросами не по делу, то человек способен ответить словами, не вклю ченными в словарь.
Вообще есть системы, где пробные сигналы никогда
103
не допустимы,— они нарушают действие установки. В та ких системах лучше пассивная адаптация. ЦВМ не просит оператора произносить заветное «люблю вычислительную технику», а сама выискивает эти слова в речи человека (однажды он сказал: «Люблю Алену», в другой раз
«На свалку бы эту вычислительную», а в третий «Отраба тывать надо футбольную технику». Машина неподчеркну
тые слова пропускает — не входят в словарь, а подчерк нутые — обрабатывает, готовя пункт за пунктом речевую карточку). Пассивная адаптация занимает больше време ни, зато ненавязчива.
Теперь о новых словах, об адаптивном расширении словаря ЦВМ. Машина принимается следить, как часто оператор произносит то или иное слово. Значение некото рых слов для нее «темно или ничтожно», но ЦВМ кропот ливо накапливает относительные частоты. Если среди неологизмов (с машинной точки зрения «неологизмов», для человека — это добротные, исконные слова) есть устойчиво повторяющиеся, ЦВМ спрашивает у человека, что они означают, какова их семантика.
Оператор сообщает машине однозначные смыслы новых слов; многозначность недопустима — «игра слов» ставит машину в тупик. Человек указывает также роль слова в предложении, его поведение при сцеплении с другими словами, синтаксические особенности слова.
Машина переваривает неологизм: подгоняет под свои стандарты, снабжает своими ярлычками, указывает слову место в общей структуре. Слово за словом — крепнет, нали вается силами распознающая структура.
Работы по адаптации при речевом вводе только разво рачиваются. Оптимисты обещают «разговор с машиной на естественном языке в ближайшие годы», пессимисты напо минают о нелегкой судьбе машинного перевода, двоюрод
104
ного брата распознавания речи. Ах, если б сегодняшние успехи адаптации сохранились и завтра и послезавтра, «если б навеки так было», ну, не навеки, лет па пять, тогда речевой барьер действительно исчез бы.
Ах, если б нейронные сети, такие понятливые ученики, все росли да умнели, лет пять назад мы владели бы искусственным мозгом. Суждено было иное — сети продол жали быстро расти, но умнеть стали медленно. Останови лись на полпути к мозгу.
Где пройдет, где остановится адаптация? Исчерпают ся ли ее кажущиеся сегодня беспредельными резервы? Найдется ли другой подход, способный подхватить ношу речевого ввода? Или человек предпочтет общаться с ма шиной иначе?
—Вот уж мало вероятно! Речь — слишком человече ский способ общения, чтобы дать обет молчания.
—Справедливо. Но оперативные ситуации разнообраз
ны, и далеко не всегда впору разговаривать. Зачем закли нать: «Сезам, откройся!»— когда можно просто нажать кнопку?
—Спору пет, разумно «слов не тратить попустому, где можно власть употребить». Кнопки, ключи, контрол леры, задатчики, безмолвная речь щитов и пультов, не спи сывается в архив. «Слово изреченное» необходимо, если принимаются творческие решения, если контакты с маши ной многократные, многоликие, прихотливые, не закосте невшие.
—Творчество не всегда выражается речами. Конструи
рование, проектирование, вся инженерная работа опирает ся на графический обмеп. Монж назвал чертеж языком техники, чертеж, а не словопрения.
—Но бывают же случаи, когда речь...
—Какие случаи?
—Речь необходима, когда руки оператора заняты.
105
—Ситуация «нужен трехрукий» и ее разрешение посредством речевого ввода?
—Пусть так. В установках, осваивающих неизведан ное, обе руки оператора могут оказаться заклятыми, тогда ему поможет язык. Или пришлось действовать в темноте —
не управлять же на ощупь. Не исключены перегрузки
иранения, не дающие и пальцем шевельнуть...
—Руки заняты и у обыкновенного сортировщика посылок, и у токаря, и у программиста. Им набор, пусть
небольшой, речевых |
команд оказался бы очень кстати. |
— В современном |
производстве нередки опасные для |
жизни операции. Чтобы свести на нет опасность, принят следующий порядок: (1) оператор заполняет бланк, четко перечисляя будущие свои действия; (2) бланк проверяет и подписывает старший оператор; (3) младший вслух прочитывает очередной шаг и выполняет его, а старший — дает разрешение и следит за правильностью и полнотой исполнения. И так шаг за шагом. При речевом вводе старшим оператором может служить машина.
—Машина старше человека?
—Здесь это вполне уместно: от старшего требуются не прозрения, а пунктуальность. В ЦВМ могут храниться все описания — бланки опасных процедур. Вначале она покажет необходимый бланк человеку. Йотом «спрячет бланк», а оператор произнесет вслух содержание первого своего действия. Если ошибок нет, ЦВМ разрешит испол нение. Проверит сделанное и станет ждать второй реплики
оператора.
— Действительно, даже требование однозначности, столь сужающее возможности речевого ввода, здесь полез но: побуждает оператора к строгости.
— Существует третья, самая широкая область приме нения речевого ввода. Это обращения к информационному центру но телефопу. Телефон — самое массовое средство
106
оперативной связи людей между собой — все шире исполь зуют также для связи с ЦВМ, для получения справок от машины. Конечно, с телетайпа обратиться к машине легче — не требуется распознавать речь. Но мыслимое ли дело — оснастить каждую квартиру телетайпом?
—А телефон уже стоит. И сеть связи готова. Как не попытаться этой проверенной сетью ловить новую, дико винную рыбу? И получается?
—Да, если набор вопросов строго определен, а человек произносит их по жестким правилам...
Мы начали обсуждение речевого ввода с телефона
ипришли к телефону. Воистину все возвращается в круги своя. Только круги расширяются.
Телефон вводит информацию в машину. Естественно
иответ машины получить по телефону. Слушающая ма шина обязана стать говорящей.
Итак, сборка речей посредством ЦВМ. Определим
поначалу составляющие, из которых станем собирать. Лучше всего складывать из крупных блоков, из готовых
фраз или даже целых сообщений. Диктор заранее нагово рит все сообщения на ленту, а машина примется управлять магнитофоном — перемоткой ленты до нужного сообщения и включением звука.
Лет двенадцать назад мне передали на отзыв рациона лизаторское предложение, сделанное мастером Воркутинской ТЭЦ. Мастер придумал, как использовать много дорожечный магнитофон для помощи машинисту. Если главные параметры в норме, «нежный женский голос» время от времени успокаивает машиниста: «Сейчас на котле и турбине всё в порядке, всё в порядке». Чуть случается отклонение, «средний мужской голос» предуп реждает: «Вакуум в конденсаторе падает!». Если отклоне ние опасно, вторгается «грубый мужской голос»: «Аварий ный рост давления! Принимай меры!»
107
Мастер из Воркуты знал, насколько загружен маши нист наблюдением за приборами, насколько велик объем зрительной информации и пытался переместить хоть часть информационной тяжести со зрения на слух человека. Он был совершенно прав и очень изобретателен (ЦВМ, ко нечно, не использовалась — обошлись магнитофоном и сиг нальными реле).
Это было остроумное предложение. А я дал на него, отрицательный отзыв. Из-за ненадежности. Вдруг порвется лента, не сместится головка, заест привод магнитофона, не услышать тогда машинисту ни нежного женского, ни грубого мужского голоса.
Сегодня выпускаются магнитофоны, основа которых — вращающийся в вакууме магнитный барабан. Над каждой из 96 дорожек —■своя считывающая головка. Схемы бес
контактные. Среднее время работы до первого |
отказа — |
||
20 000 часов. Сегодня я |
говорю |
товарищу из |
Воркуты: |
«Извини, тогда нельзя |
было, но |
ты здорово |
придумал, |
и сегодня уже можно.
Хотя сегодня разумно сделать несколько иначе, чем ты предложил. Не стоит записывать на магнитофонах сообщения целиком — слишком много места они занимают, долог их поиск, ограничен набор».
Попробуем собирать сообщения из отдельных слов, точнее из корней слов и аффиксов — частичек, прикреп ляемых перед корнями или после них. Осколки слов на говорим на магнитофон, а ЦВМ поручим сшивать из них речи. Разнообразные речи. Жаль только, что вместе с приятным разнообразием является рой неприятных
проблем и вопросов.
Что станется с ударениями? Не исчезнут ли паузы? Во что обратится ритм речи? Не потеряет ли речь естест венность, не сменятся ли нежный женский и грубый мужской голос машинным чревовещанием?
108