
- •14.1.2. Сегментація як кластеризація
- •14.2. Людський зір: групування і гештальт
- •14.3. Додаток: віднімання фону і визначення меж кадрів
- •14.3.1. Віднімання фону
- •14.3.2. Визначення меж кадрів
- •14.4. Сегментация зображення через кластеризації пікселів
- •14.4.1. Сегментація з використанням простих методів кластеризації
- •14.4.2. Кластеризація і сегментація через. К-середні
- •14.5.Сегментація через теоретико-графову кластеризацію
- •14.5.1. Термінологія теорії графів
- •14.5.2. Загальна схема
- •14.5.3. Міри подібностей
- •14.5.4. Власні вектори і сегментація
- •14.5.5. Нормовані розрізи
- •14.6. Примітки
14.1.1. Модельні завдання
Існує безліч прикладів завдань сегментації. Природничі модельні задачі - це ті, де корисно знати кілька методів рішення. Далі в книзі буде використана одна з перерахованих нижче завдань.
• Формування сегментів зображень. Хотілося б розкласти зображення на "суперпікселі" - ділянки зображень, що мають приблизно когерентний колір і текстуру. Як правило, форма цих областей не дуже важлива, а от за когерентністю стежити варто. Дане завдання досить широко вивчається (часто під сегментацією увазі один тільки цей процес) і, як правило, є першим етапом розпізнавання зображення.
• Узгодження ліній з крайовими точками. Як зазначалося раніше, існує кілька причин, за якими може бути зручно підібрати набір ліній по набору точок. Це завдання може бути як досить простий (наприклад, якщо відомо, скільки має бути ліній, і які точки належать якій лінії), так і досить складною (в більшості інших випадків). Дане завдання також відноситься до завдань сегментації - тут упорядковуються токени, зібрані разом, оскільки вони належать одній лінії. Якщо спробувати підібрати лінію по набору точок, деякі з яких розташовані далеко від всіх ліній, отриманий результат (якщо не бути дуже акуратним) може виявитися безглуздим. Даний приклад ілюструє важливий і досить загальний принцип: зневага відповідниками може призводити до тих же наслідків, що і шум. Взагалі, звичайно потрібно одночасно оцінювати параметри ліній і відповідності між точками і лініями.
• Узгодження фундаментальної матриці з набором характерних точок. Припустимо, що дано дві проекції набору характерних точок. Як правило, важко з упевненістю сказати, які точки двох зображень слід зіставити один одному, хоча деякі припущення зробити все ж можна. Визначити, наскільки вірно зроблене припущення, можна, наприклад, вивчаючи зв'язані точки фундаментальної матриці. Цю матрицю хотілося б визначити заздалегідь, ще не знаючи точкових відповідностей. На захист такого підходу можна назвати кілька міркувань. По-перше, не знаючи вирішення зазначеного завдання, за кількома зображеннями неможливо побудувати розумне подання форми. По-друге, за рішеннями даної задачі можна визначити, які набори точок рухаються як єдине ціле. Якщо на послідовності зображень представлені два рухомих об'єкта, у них будуть різні фундаментальні матриці. Як і вище, невірні відповідності можуть призводити до тих же наслідків, що і шум. На основі описаних задач далі проілюстровані різні алгоритми сегментації, при цьому варто пам'ятати, що далеко не кожна схема дає прийнятне рішення кожної модельної задачі.
14.1.2. Сегментація як кластеризація
Природно думати, що сегментація - це спроба визначити, які компоненти набору даних природно зв'язати разом. За такого формулювання приходимо до задачі кластеризації, широко висвітленої в літературі. У загальному випадку кластеризацію можна проводити двома способами.
• Розбиття. Є великий набір даних, який розчленовується згідно певним уявленням про асоціацію елементів набору. Розбиття прийнято проводити по частинах, які зручні для своєї моделі. Наприклад, можна
- Розбити зображення на області когерентних кольору і текстури;
- Розбити зображення на великі плями, які складаються з областей-сегментів когерентних кольору, текстури і руху;
- Розбити відеоряд на кадри - сегменти, які мають приблизно ті ж об'єкти, які видно приблизно з однакових точок спостереження.
• Угрупування. У цьому випадку мається набір різних інформаційних зображень і необхідно зібрати набори елементів, значущих з точки зору використовуваної моделі. Наявність ефектів, подібних затінення, означає, що компоненти зображення, які належать одному об'єкту, на зображенні можуть бути рознесеними. Наведемо приклади угруповання.
- Збір токенів, в результаті якого формується лінія.
- Збір токенів, які ймовірно мають однакову фундаментальну матрицю.
Зрозуміло, ключове питання тут - визначити, яке уявлення підходить для поставленої задачі. Як правило, при виборі моделі керуються знаннями про те, як вони працюють, так що вибір зазвичай інформативний. Але навіть у цьому випадку потрібно знати критерій, згідно з яким схема сегментації буде визначати, які пікселі (або токени) групувати разом. Плідний джерело необхідних знань - людська зорова система, яка здатна вирішувати дану задачу в найбільш загальній формі і, що ще більш чудово, легко і впевнено підбирати критерій угруповання токенів.
Рис. 14.2. Відома оптична ілюзія Мюллера-Лайера (Muller-Lyer): довжини горизонтальних ліній рівні, хоча лінія на нижньому малюнку здається довшим. Причина даного ефекту - сприйняття властивості цілого (гешталипквалітат, gestaltqualitat), а не властивостей окремих сегментів
14.2. Людський зір: групування і гештальт
Ключова особливість людської зорової системи полягає в тому, що на сприйняття навколишнього світу впливає контекст (рис. 14.2). Це спостереження привело до виникнення школи гештальт-психології. Прихильники цієї школи відкидали вивчення реакції на зовнішні подразники і робили акцент на угрупованню як основі до розуміння зорового сприйняття. Для послідовників цієї школи угруповання - це тенденція зорової системи збирати деякі компоненти зображення в єдине ціле і сприймати їх саме як ціле. Угруповання, наприклад, це причина оптичної ілюзії Мюллера-Лайера (рис. 14.2) - зорова система сприймає компоненти двох стрілочок як єдине ціле, тому горизонтальні лінії здаються різними, оскільки сприймаються вони не як окремі об'єкти, а як елементи стрілок. Більше того, багато ефекти угруповання не можна зруйнувати навіть знаючи про їх наявність; наприклад, лінії на рис. 14.2 не виглядатимуть однаково, навіть якщо ви вирішите не звертати уваги на стрілочки.
Загальний підхід до сегментації - завжди припускати, що зображення можна дозволити в малюнок (як правило, значимий, важливий об'єкт) і фон - основу, на якій розташований малюнок. У той же час (див. рис. 14.3) не завжди можна однозначно визначити, що є малюнком, а що - фоном, звідки випливає, що запропонована теорія є недостатньою.
У школі гештальта в якості центрального компонента ідей використовується поняття гештальта - цілого або групи - і його гештальтквалітата (gestaltqualitat) - сукупності внутрішніх відносин, які роблять ціле цілим (наприклад, як на рис. 14.2). Для робіт цієї школи характерні спроби записати набір правил, за допомогою яких елементи зображення будуть співвідноситися разом і інтерпретуватися як група. Крім того, були (що представляють виключно історичний інтерес) спроби побудувати алгоритми використання цих правил (див. [Gordon, 1997], де описані базові поняття, що дали основу для подальших робіт).
Психологи
школи гештальта визначили ряд факторів,
згідно з якими, на їх думку, об'єднується
безліч елементів. Ці фактори важливі,
оскільки цілком очевидно, що людська
зорова система якось їх використовує.
Більше того, розумно очікувати, що ці
фактори представляють набірРис.
14.3. Поширений підхід до сегментації:
визначати, які компоненти зображення
формують малюнок, а які - фон. Вище
ілюструється неоднозначність, характерна
для такої точки зору; білу окружність
можна вважати малюнком на чорній
прямокутній тлі або фоном, на якому
зображений чорний прямокутник з круглим
отвором (в останньому випадку фон - це
великий білий квадрат)
бажаних суджень про те, до якого об'єкту віднести даний токен, що дозволяє ввести зручне проміжне представлення.
Існує безліч факторів, деякі з них були відкриті після початкових робіт психологів школи гештальта.
• Сусідство. Природно згрупувати токени, розташовані поруч.
• Подоба. Природно згрупувати подібні токени.
• Загальна поведінка. Природно згрупувати токени, що мають когерентне рух.
• Загальна область. Природно згрупувати токени, розташовані всередині однієї замкнутої області.
• Паралельність. Природно згрупувати паралельні криві або токени.
• Замкнутість. Природно згрупувати токени або криві, що формують замкнуті об'єкти.
• Симетрія. Групуються криві,. Належать симетричним групам.
• Безперервність. Природно згрупувати токени, що проявляють безперервність (не тільки у формальному сенсі).
• Знайома конфігурація. Природно згрупувати токени, які в сумі дадуть знайомий об'єкт.
Рис.
14.4. Приклади гештальт-факторів, згідно
з якими відбувається угрупування
(докладніше в тексті)
Певні вище закони ілюструються на рис. 14.1, 14.4, 14.5 і 14.7.
Дані правила можна використовувати при поясненнях, але вони недостатньо суворі, щоб їх можна було ввести в алгоритм. Психологи школи гештальта зіткнулися з серйозними труднощами при визначенні області застосування кожного окремого правила. Взагалі, задовільний алгоритм використання цих правил запропонувати складно, в гештальте, наприклад, для цього намагалися пристосувати принцип екстремальності.
Окрему проблему становить те, що вище було названо "знайомими конфігураціями". Ключове питання полягає в тому, щоб зрозуміти, яка знайома конфігурація застосовна до поставленого завдання, і як її вибрати. Звернемося, наприклад, до рис. 14.1. З першого погляду здається, що плями можна згрупувати, оскільки вони формують сферу. Складність полягає в тому, щоб пояснити, як це відбувається - звідки взялася думка про сфері? Одне можливе пояснення: вивчити всі зображення всіх об'єктів, але в такому випадку доведеться пояснити, як організувати подібне дослідження. Як перевірити кожне зображення кожної сфери з кожним набором плям? Як це зробити ефективно?
Паралельністьсть
Симетрія
Неперервність
Замкненість
Рис. 14.5. Приклади гештальт-факторів, згідно з якими відбувається угрупування (докладніше - в тексті)
Рис.
14.6. Важливим ключем при угруповання є
затінення. Набір ліворуч важко
ідентифікувати як сукупність цифр, тоді
як справа цілком очевидно вгадуються
заслоненние цифри. Чорні області в обох
випадках збігаються. Схоже, зорова
система сприймає чорні області не як
окремі відокремлені об'єкти, а як частини,
розділені деяким чином
Правила гештальта пропонують інакше поглянути на цю проблему, оскільки вони пояснюють, що відбувається в різних випадках. Ці пояснення здаються розумними, оскільки вони пропонують рішення завдань на візуальні ефекти, які зустрічаються в реальному світі, - тобто вони екологічно дієві. Наприклад, безперервність може дозволити вирішити завдання затінення, коли частини контуру затінювати об'єкта можна згрупувати за принципом безперервності (див. рис. 14.6).
Дана тенденція віддавати перевагу інтерпретації, в якій фігурують затінюючі об'єкти, приводить до цікавих ефектів. Один з них - удавані контури, показані на рис. 14.8. Тут є набір токенів, з розміщення яких напрошується припущення про наявність об'єкта, більша частина контуру якого зливається з фоном. Токени здаються згрупованими разом, оскільки вони створюють враження наявності затінюючого об'єкта, причому це враження настільки сильно, що можна домалювати відсутні фрагменти контуру, які припадають на неконтрастну область.
Даний екологічний аргумент досить важливий, оскільки з його допомогою можна інтерпретувати більшість факторів угруповання. Загальна поведінка можна розглядати як наслідок того факту, що компоненти об'єкта мають подібне рух. Подібним чином, симетрія - це також корисний критерій угруповання, оскільки контури більшості реальних об'єктів в тій чи іншій мірі симетричні. По суті, наведений екологічний аргумент можна переформулювати наступним чином: "токени групуються саме так, оскільки при цьому створюються уявлення, значимі в зоровому світі людей". Екологічний аргумент має привабливу (хоча
Рис.
14.7. Приклад явища угруповання в реальному
житті. Кнопки ліфта в будівлі факультету
комп'ютерних наук Каліфорнійського
університету в Берклі виглядали так,
як показано на верхньому малюнку. Досить
часто люди виявлялися не на тому поверсі,
оскільки натискувати не
на
ту кнопку - з першого погляду кнопки
складно однозначно співвіднести з
правильною підписом. Хтось, сповнений
громадянського обов'язку, обвів правильні
пари "кнопка-цифра" (нижній малюнок),
і плутанина припинилася, оскільки
неоднозначність була дозволена
Рис.
14.8. З розташування токенів на даних
зображеннях можна припустити наявність
затінюючих об'єктів, розміри яких
порівняти з розмірами зображення.
Зверніть увагу, що по одному зображенню
можна отримати чітке уявлення про
контурі затінюючого об'єкта. Називаються
такі контури удаваними
і неявну) статистичну природу. Відзначимо також що гештальт-фактори дають цікаві підказки, але їх варто розглядати не як локальні процеси угруповання, а як наслідку глобальних процесів угруповання.