Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Рихтер Дж., Назар К. - Windows via C C++. Программирование на языке Visual C++ - 2009

.pdf
Скачиваний:
6265
Добавлен:
13.08.2013
Размер:
31.38 Mб
Скачать

Глава 1. Обработка ошибок.docx 5

кодом ошибки другой функции ИЛИ кодом ERROR_SUCCESS в случае успешного завершения функции).

Некоторые функции Windows всегда завершаются успешно, но по разным причинам. Например, попытка создать объект ядра «событие» с определенным именем может быть успешна либо потому, что вы действительно создали его, либо потому, что такой объект уже есть. Но иногда нужно знать причину успеха. Для возврата этой информации Майкрософт предпочла использовать механизм установки кода последней ошибки. Так что и при успешном выполнении некоторых функций вы можете вызывать GetLastError и получать дополнительную информацию. К числу таких функций относится, например, CreateEvent. Сведения о других функциях и примеры возврата ERROR_ALREADY_EXISTS в случае, если именованное событие существует, см. в Platform SDK.

На мой взгляд, особенно полезно отслеживать код последней ошибки в процессе отладки. Кстати, отладчик в Microsoft Visual Studio позволяет настраивать окно Watch так, чтобы оно всегда показывало код и описание последней ошибки в текущем потоке. Для этого надо выбрать какую-нибудь строку в окне Watch и ввести «@err,hr». Теперь посмотрите на рис. 1-1. Видите, я вызвал функцию CreateFile. Она вернула значение INVALID_HANDLE_VALUE (-1) типа HANDLE, свидетельствующее о том, что ей не удалось открыть заданный файл. Но окно Watch показывает нам код последней ошибки (который вернула бы функция GetLastError, если бы я ее вызвал), равный 0x00000002, и описание «The system cannot find the file specified» («Система не может найти указанный файл»).

Именно эта строка и определена в заголовочном файле WinError.h для ошибки с кодом 2.

Рис. 1-1. Используя «@err,hr» в окне Watch среды Visual Studio, вы можете просматривать код последней ошибки в текущем потоке

С Visual Studio поставляется небольшая утилита Error Lookup, которая позволяет получать описание ошибки по ее коду.

Если приложение обнаруживает какую-нибудь ошибку, то, как правило, сообщает о ней пользователю, выводя на экран ее описание. В Windows для этого есть специальная функция, которая «конвертирует» код ошибки в ее описание, —

FormatMessage:

6 Часть I. Материалы для обязательного чтения

DWORD FormatMessage( DWORD dwFlags, LPCVOID pSource, DWORD dwMessageId, DWORD dwLanguageId, PTSTR pszBuffer, DWORD nSize, va_list *Arguments);

FormatMessage — весьма богатая по своим возможностям функция, и именно ее желательно применять при формировании всех строк, показываемых пользователю. Дело в том, что она позволяет легко работать с множеством языков. FormatMessage определяет, какой язык выбран в системе в качестве основного (этот параметр задается через апплет Regional Settings в Control Panel), и возвращает текст на соответствующем языке. Разумеется, сначала вы должны перевести строки на нужные языки и встроить этот ресурс в свой EXEили DLL-модуль, зато потом функция будет автоматически выбирать требуемый язык. Программапример ErrorShow, приведенная в конце главы, демонстрирует, как вызывать эту функцию для получения текстового описания ошибки по ее коду, определенному Майкрософт.

Время от времени меня кто-нибудь да спрашивает, составит ли Майкрософт полный список кодов всех ошибок, возможных в каждой функции Windows. Ответ: увы, нет. Скажу больше, такого списка никогда не будет — слишком уж сложно его составлять и поддерживать для всѐ новых и новых версий системы.

Проблема с подобным списком еще и в том, что вы вызываете одну APIфункцию, а она может обратиться к другой, та — к третьей и т. д. Любая из этих функций может завершиться неудачно (и по самым разным причинам). Иногда функция более высокого уровня сама справляется с ошибкой в одной из вызванных ею функций и в конечном счете выполняет то, что вы от нее хотели. В общем, для создания такого списка Майкрософт пришлось бы проследить цепочки вызовов в каждой функции, что очень трудно. А с появлением новой версии системы эти цепочки нужно было бы пересматривать заново.

Глава 1. Обработка ошибок.docx 7

Вы тоже можете это сделать

Итак, я показал, как функции Windows сообщают об ошибках. Майкрософт позволяет вам использовать этот механизм и в собственных функциях. Допустим, вы пишете функцию, к которой будут обращаться другие программы. Вызов этой функции может по какой-либо причине завершиться неудачно, и вам тоже нужно сообщать об ошибках. С этой целью вы просто устанавливаете код последней ошибки в потоке и возвращаете значение FALSE, INVALID_HANDLE_VALUE, NULL или что-то другое, более подходящее в Вашем случае. Чтобы установить код последней ошибки в потоке, вы вызываете SetLastError

VOID SetLastError(DWORD dwErrCode);

и передаете ей нужное 32-битное число. Я стараюсь использовать коды, уже определенные в WinError.h, — при условии, что они подходят под те ошибки, о которых могут сообщать мои функции. Если вы считаете, что ни один из кодов в WinError.h не годится для ошибки, возможной в вашей функции, определите свой код. Он представляет собой 32-битное значение, которое разбито на поля, показанные в следующей таблице.

Табл. 1-2. Поля кода ошибки

Биты

 

31-30

 

29

 

28

27-16

 

15-0

Содержимое:

 

 

Кем

опреде-

 

 

 

 

 

Код степени «тяже-

лен —

Майкро-

Зарезервирован

Код подсистемы

Код исключения

 

сти» (severity)

софт

или

поль-

(facility code)

 

 

 

 

 

 

 

 

зователем

 

 

 

 

 

Значение:

0

= успех;

 

 

 

 

Первые

256

 

 

1

= информация;

 

 

 

 

Определяется

 

0 = Майкрософт;

 

значений опре-

 

2

= предупрежде-

Должен быть 0

Майкрософт или

 

1 = пользователь

деляются Майк-

 

ние;

 

пользователем

 

 

 

 

 

рософт

 

 

3

= ошибка

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Подробнее об этих полях я рассказываю в главе 24. На данный момент единственное важное для вас поле — бит 29. Майкрософт обещает, что все коды ошибок, генерируемые ее функциями, будут содержать 0 в этом бите. Если вы определяете собственный код ошибки, запишите сюда 1. Тогда у вас будет гарантия, что ваш код ошибки не войдет в конфликт с кодом, определенным Майкрософт, — ни сейчас, ни в будущем. Заметьте, что код Facility может принимать 4096 возможных значений, из которых первые 256 Майкрософт зарезервировала для собственных нужд, а остальные доступны для использования в приложениях всем желающим.

8 Часть I. Материалы для обязательного чтения

Программа-пример ErrorShow

Эта программа, «01 ErrorShow.exe» (см. листинг на рис. 1-2), демонстрирует, как получить текстовое описание ошибки по ее коду. Файлы исходного кода и ресурсов программы находятся в каталоге 01-ErrorShow на компакт-диске, прилагае-

мом к книге, а также на сайте http://wintellect.com/Books.aspx. Программа

ErrorShow в основном предназначена для того, чтобы вы увидели, как работают окно Watch отладчика и утилита Error Lookup. После запуска ErrorShow открывается следующее окно.

В поле Error можно ввести любой код ошибки. Когда вы щелкнете кнопку Look Up, внизу, в прокручиваемом окне появится текст с описанием данной ошибки. Единственная интересная особенность программы заключается в том, как она обращается к функции FormatMessage. Я использую эту функцию так:

// получаем код ошибки

DWORD dwError = GetDlgItemInt(hwnd, IDC_ERR0RC0DE, NULL, FALSE);

HL0CAL hlocal = NULL; // буфер для строки с описанием ошибки

//Мы ищем сообщения Windows, поэтому используем системные

//региональные параметры по умолчанию

//Примечание. Эта комбинация MAKELANGID имеет значение 0

DWORD systemLocale = MAKELANGID(LANG_NEUTRAL, SUBLANG_NEUTRAL);

// получаем описание ошибки по коду

BOOL fOk = FormatMessage(

F0RMAT_MESSAGE_FR0M_8YSTEM | FORMAT_MESSAGE_IGNORE_INSERTS | FORMAT_MESSAGE_ALLOCATE_BUFFER,

NULL, dwError, systemLocale, (PTSTR) &hlocal, 0, NULL);

if (!fOk) {

// Это ошибка, связанная с сетью?

HM0DULE hDll = LoadLibraryEx(TEXT("netmsg. dll"), NULL, DONT_RESOLVE_DLL_REFERENCES);

if (hDll != NULL) {

fOk = FormatMessage(

F0RMAT_MESSAGE_FR0M_HM0DULE | FORMAT_MESSAGE_IGNORE_INSERTS | FORMAT_MESSAGE_ALLOCATE_BUFFER,

Глава 1. Обработка ошибок.docx 9

hDll, dwError, systemLocale, (PTSTR) &hlocal, 0, NULL);

FreeLibrary(hDll);

}

}

if (fOk && (hlocal 1= NULL)) {

SetDlgItemText(hwnd, IDC_ERRORTEXT, (PCTSTR) LocalLock(hlocal)); LocalFree(hlocal);

} else {

SetDlgItemText(hwnd, IDC_ERRORTEXT,

TEXT("No text found for this error number."));

Первая строка считывает код ошибки из текстового поля. Далее я создаю экземпляр описателя (handle) блока памяти и инициализирую его значением NULL. Функция FormatMessage сама выделяет нужный блок памяти и возвращает нам его описатель.

Вызывая FormatMessage, я передаю флаг FORMAT_MESSAGEJFROM_ SYSTEM. Он сообщает функции, что мне нужна строка, соответствующая коду ошибки, определенному в системе. Кроме того, я передаю флаг

FORMAT_MESSAGE_ALLOCATE_BUFFER, чтобы функция выделила соответ-

ствующий блок памяти для хранения текста. Описатель этого блока будет воз-

вращен в переменной hlocal. Флаг FORMAT_MESSAGE_IGNORE_INSERTS по-

зволяет заменять в сообщениях параметры, которые используются Windows для передачи более детальной контекстной информации, подстановочными знаками, как показано на следующем рисунке:

Без этого флага необходимо передать вместо подстановочных знаков значения в параметре Arguments, но в случае Error Show это невозможно, поскольку содержимое сообщений заранее не известно.

Третий параметр указывает код интересующей нас ошибки, а четвертый — язык, на котором мы хотим увидеть ее описание. Поскольку мы хотим получить сообщения, переданные Windows, идентификатор языка создается из пары определенных констант, в результате получается 0 — значение, соответствующее языку по умолчанию, заданному в операционной системе. Это пример ситуации, в которой невозможно «зашить» в код идентификатор языка, поскольку нельзя узнать заранее, какой язык используется в той копии операционной системы, где будет запущена программа ErrorShow.

Если выполнение FormatMessage заканчивается успешно, описание ошибки помещается в блок памяти, и я копирую его в прокручиваемое окно, расположенное в нижней части окна программы. А если вызов FormatMessage

10 Часть I. Материалы для обязательного чтения

оказывается неудачным, я пытаюсь найти код сообщения в модуле NetMsg.dll, чтобы выяснить, не связана ли ошибка с сетью (о поиске DLL на диске см. в главе 20). Используя описатель NetMsg.dll, я вновь вызываю FormatMessage. Дело в том, что у каждого DLL или ЕХЕ-модуля может быть собственный набор кодов ошибок, который включается в модуль с помощью Message Compiler (MC.exe). Как раз это и позволяет делать утилита Error Lookup через свое диалоговое окно

Modules.

Г Л А В А 2

Работа с символами и строками

Microsoft Windows становится все популярнее, и нам, разработчикам, надо больше ориентироваться на международные рынки. Раньше считалось нормальным, что локализованные версии программных продуктов выходят спустя полгода после их появления в США. Но расширение поддержки в операционной системе множества самых разных языков упрощает выпуск программ, рассчитанных на международные рынки, и тем самым сокращает задержки с началом их дистрибуции.

В Windows всегда были средства, помогающие разработчикам локализовать свои приложения. Программа получает специфичную для конкретной страны информацию (региональные стандарты), вызывая различные функции Windows, и узнает предпочтения пользователя, анализируя параметры, заданные в Control Panel. Кроме того, Windows поддерживает массу всевозможных шрифтов. И последний, но от этого не менее важный момент: Windows Vista теперь поддержива-

ет Unicode 5.0 (подробнее о Unicode 5.0 см. в статье «Extend The Global Reach Of Your Applications With Unicode 5.0» по ссылке http://msdn.microsoft.com/msdnrnag/ issues/07/01/Unicode/default.aspx).

Теперь приложения и даже компоненты часто атакуют через уязвимости, возникающие из-за ошибок в результате переполнения буфера (такие ошибки типичны при работе с текстовыми строками). В последнее время Майкрософт и ее партнеры приложили значительные усилия для укрепления безопасности в мире Windows. Во второй части этой главы рассказывается о новых функциях, добавленных Майкрософт в библиотеку времени выполнения языка С. Эти функции следует использовать для защиты кода от переполнения буфера при работе со строками.

Я решил переместить эту главу в начало книги, поскольку настоятельно рекомендую использовать в приложениях только Unicode-строки, а для манипулирования ими — только новые безопасные строковые функции. Вы

Оглавление

 

Г Л А В А 2 Работа с символами и строками .........................................................................................

11

Наборы символов ..................................................................................................................................

12

Символьные и строковые типы данных для ANSI и Unicode..........................................................

14

Unicode- и ANSI-функции в Windows....................................................................................................

16

Unicode- и ANSI-функции в библиотеке С ...........................................................................................

19

Безопасные строковые функции в библиотеке С .............................................................................

20

Введение в безопасные строковые функции.................................................................................

21

Дополнительные возможности при работе со строками .............................................................

25

Строковые функции Windows...........................................................................................................

27

Почему Unicode?.....................................................................................................................................

29

Рекомендуемые приемы работы с символами и строками.............................................................

30

Перекодировка строк из Unicode в ANSI и обратно...........................................................................

31

Экспорт DLL-функций для работы с ANSI и Unicode.....................................................................

33

Определяем формат текста (ANSI или Unicode).............................................................................

35

12 Часть I Материалы для обязательного чтения

увидите, что почти во всех главах и примерах этой книги я касаюсь вопросов безопасности использования Unicode-строк. Разработчикам приложений, не поддерживающих Unicode, лучше позаботиться об их переводе на Unicode — это повысит производительность и подготовит приложения к локализации. Кроме того, это полезно для организации взаимодействия с СОМ и .NET Framework.

Наборы символов

Настоящей проблемой при локализации всегда были операции с различными наборами символов. Годами, кодируя текстовые строки как последовательности однобайтовых символов с нулем в конце, большинство программистов так к этому привыкло, что это стало чуть ли не второй их натурой. Вызываемая нами функция strlen возвращает количество символов в заканчивающемся нулем массиве однобайтовых символов.

Но существуют такие языки и системы письменности (классический пример — японские иероглифы), в которых столько знаков, что одного байта, позволяющего кодировать не более 256 символов, просто недостаточно. Для поддержки подобных языков были созданы двухбайтовые наборы символов (double-byte character sets, DBCS). В двухбайтовом наборе символ представляется либо одним, либо двумя байтами. Так, для японской каны (японской фонематической азбуки), если значение первого байта находится между 0x81 и 0x9F или между 0xE0 и 0xFC, надо проверить значение следующего байта в строке, чтобы определить полный символ. Работа с двухбайтовыми наборами символов — просто кошмар для программиста, так как часть их состоит из одного байта, а часть — из двух. К счастью, теперь можно забыть о DBCS и использовать поддержку Unicode-строк, реализованную в Windows-функциях и библиотечных функциях С.

Unicode — стандарт, первоначально разработанный Apple и Xerox в 1988 г. В 1991 г. был создан консорциум для совершенствования и внедрения Unicode. В

него вошли компании Apple, Compaq, Hewlett-Packard, IBM, Microsoft, Oracle, Silicon Graphics, Sybase, Unisys и Xerox. (Полный список компаний — членов кон-

сорциума см. на www.unicode.org) Эта группа компаний наблюдает за соблюдением стандарта Unicode, описание которого Вы найдете в книге «The Unicode Standard» издательства Addison-Wesley (ее электронный вариант можно получить на том же www.unicode.org).

В Windows Vista для представления всех Unicode-символов использует-

ся кодировка UTF-16 (UTF — аббревиатура англ. Unicode Transformation Format). В UTF-16 символы представлены двумя байтами (16 битами). Если не сказано обратное, под Unicode в этой книге имеется в виду UTF-16. Эта кодировка используется в Windows, поскольку 16-битными значениями можно представить символы, составляющие алфавиты большинства языков

мира, это

позволяет программам быстрее обрабатывать строки и вычислять

их длину.

Однако для представления символов алфавита некоторых языков

Глава 2. Работа с символами и строками.docx 13

16 бит недостаточно. Для таких случаев UTE-16 поддерживает «суррогатные» кодировки, позволяющие кодировать символы 32 битами (4 байтами). Впрочем, приложений, которым приходится иметь дело с символами таких языков, мало, поэтому UTF-16 — хороший компромисс между экономией памяти и простотой программирования. Заметьте, что в .NET Framework все символы кодируются с использованием UTF-16, поэтому применение UTF-16 в Windows-приложениях повышает производительность и снижает потребление памяти при передаче строк между «родным» и управляемым кодом. Существуют и другие стандарты UTF для представления символов, включая:

UTF-8. В кодировке UTF-8 разные символы могут быть представлены 1,2,3 или 4 байтами. Символы с значениями меньше 0x0080 сжимаются до 1 байта, что очень удобно для символов, применяемых в США. Символы, которым соответствуют значения из диапазона 0x0080-0x07FF, преобразуются в 2-байтовые значения, что хорошо работает с алфавитами европейских и ближневосточных языков. Символы с бо́льшими значениями преобразуются в 3-байтовые значения, удобные при работе со среднеазиатскими языками. Наконец, «суррогатные» пары записываются в 4-байтовом формате. UTF-8— чрезвычайно популярная кодировка. Однако ее эффективность меньше по сравнению с UTF-16, если часто используются символы с значениями 0x0800 и выше.

UTF-32. В UTF-32 все символы представлены 4 байтами. Эта кодировка удобна для написания простых алгоритмов для перебора символов любого языка, не требующих обработки символов, представленных разным числом байтов. Например, при использовании UTF-32 можно забыть о «суррогатах», поскольку любой символ в этой кодировке представлен 4 байтами. Ясно, что с точки зрения использования памяти эффективность UTF-32 далека от идеала. Поэтому данную кодировку редко применяют для передачи строк по сети и сохранения их в файлы. Как правило, UTF-32 используется как внутренний формат представления данных в программе.

В настоящее время кодовые позиции1 определены для арабского, китайского, греческого, еврейского, латинского (английского) алфавитов, а также для кириллицы (русского), японской каны, корейского хангыль и некоторых других алфавитов. В каждой версии Unicode добавляются новые символы и даже алфавиты, например финикийский (алфавит, использовавшийся в древней средиземноморской культуре). Кроме того, в набор символов включено большое количество знаков препинания, математических и технических символов, стрелок, диакритических и других знаков.

Эти 65 536 символов разбиты на отдельные группы. Некоторые группы, а также включенные в них символы показаны в таблице.

1 Кодовая позиция — это положение символа в наборе символов.

Соседние файлы в предмете Программирование на C++