-
Notifications
You must be signed in to change notification settings - Fork 0
/
intro.tex
executable file
·34 lines (20 loc) · 12 KB
/
intro.tex
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
\likechapter{Вступ}
В наші часи складно уявити своє життя без комп'ютера. Він стоїть удома, на роботі, в школі чи університеті. Основний способ комунікації з цим складним девайсом є усім відомі пристрої вводу такі як: клавіатура, мишка чи в більш продвинутому випадку графічний планшет, який є просто незамінний для малювання на ПК.
Права рука людини, що працює за комп'ютером, більше 90\% часу знаходиться на мишці, оскільки основна частина користувачів ПК використовує операційні системи з графічними оболонками де більша частина простих керуючих операцій здійснюється за допомоги курсора, який контролюєтся саме мишою. Варто подумати про те, що робить у цей час ліва рука користувача. Вона дуже часто бездіє чи нажимає прості гарячі комбінації з двух-трьох кнопок на клавіатурі, хоча це малоймовірний випадок оскільки мізерний відсоток людей знає більше 5 гарячих комбінацій. Тобто перша очевидна проблема взаємодії з ПК – мала ефективність основних способів комунікації.
Взагалі перехід операційних систем на графічну оболонку можна вважати дуже великим кроком уперед. Більшість користувачів ПК сприйняли цей крок позитивно адже для запуску програми треба лише навести на її іконку курсор та натиснути один-два рази на ліву кнопку миші. Перша комп'ютерна миша, що була відносно доступною для простих людей, мала лише одну функціональну кнопку та коштувала приблизно 25\$. Вона була випущена разом із операційною системою Apple Macintosh в якій якраз з'явилась підтримка віконного інтерфейсу. Це значно пришвидшило роботу з файлами та інші рутинні операції оскільки пару кліків мишкою заміняли доволі таки складні команди в терміналі. Проте розвиток технологій та потреб користувачів призводить до того, що миша вже не може повністю покривати множину найчастіших команд користувача лише трьома кнопками та сенсором руху. Заміна середньої кнопки на колесо якраз є прикладом додавання нової функціональності миші для покриття більшої кількості команд. Саме розвиток інтернету та браузерів призвів до того, що дуже часто потрібно листати достатнью довгі сторінки і колесо прокрутки для цього підходить набагато краще. Також дуже часто до мишки додають допоміжні функціональні кнопки, які можна запрограмувати на якусь дію чи навіть послідовність дій. Це також вимушений крок розробників мишок, проте плошина поверхні мишки обмежена і місце для кнопок з часом закінчиться.
В останні пару років комп'ютерна миша еволюціонувала на багатьох пристроях у сенсорну панель. Завдяки тому, що сенсорна панель може розпізнавати до десяти пальців, з'являється можливість обробки комплексних жестів для масштабування зображення, прокрутки текста або інтернет сторінки чи навіть створення власних жестів та програмування виконання певних дій при фіксуванні цього жеста. На данний момент це один із самих ефективних мишкоподібних засобів вводу оскільки покриває дуже велику множину команд з можливістю її розширення.
Проте останній рік був дуже насиченим в плані дослідження проблеми взаємодії людини та ПК. Не так давно була випущенна камера Microsoft Kinect для приставки Xbox One. Завдяки поеднанню потоків з двох серсорів RGB та depth з'явилась реальна можливість відслудковування об'єктів у просторі. Звісно це було можливо і раніше за допомоги декількох RGB сенсорів чи навіть спеціальних рухових сенсорів, проте великим недоліком цих методів можна вважати достатньо масштабні обчислення або велику кількістю проводів. Поеднавши у камері кольоровий сенсор та сенсор відстані виходить людина не повинна взагалі нічого на себе чіпляти, не потрібно одягати спеціальний одяг з різноманітними сенсорами та передавачами. Комп'ютер може бачити людину у просторі самостійно. Також минулого року компанія Intel анонсувала технологію Realsense та лінійку камер F200, R200, SR300. Відрізняются вони лише призначенням, але головна ідея в тому, щоб дати можливість ПК та мобільним пристроям бачити у просторі. Одною із основновних частин Realsense SDK є модуль по відслідковуванню руки та аналізу статичних і динамічних жестів.
Для того щоб зрозуміти важливість цієї проблеми потрібно порівняти функціональність комп'ютерної миші та людської руки. Миша має в основному сенсор положення у 2d просторі, 3 кнопки та колесо прокрутки. Людська рука може знаходитись у 3d просторі та приймати достатньо складні форми ( статичні жести ) чи робити деякий комплекс рухів у 3d просторі ( динамічні жести ). Очевидно, що множина станів людської руки більш різноманітна ніж множина станів миші. Саме тому багато дослідників нових способів взаємодії людини та комп'ютера прийшли до того, що можна керувати ПК без тримання в руках яких-небудь пристроїв лише за допомоги жестів. На данний момент спілкування людини та комп'ютера дуже схоже на спілкування людини і сліпої та глухої людини, що виступає в ролі комп'ютера. Дійсно, ПК людину не бачить та не чує взагалі.
Система по локалізації людських рук на відео має бути достатньо простою в плані обчислень так як вона повинна працювати в режимі реального часу та обробляти від 30 до 60 фреймів на секунду. Це зразу відсіює достатньо велику частину підходів які використовуються для локалізації людських рук на фото і обробляють одне зображення довше ніж за одну секунду.
Таким чином, метою цієї роботи є досліждення методів локалізації людської руки на відео.
Для досягнення цих цілей вирішені наступні задачі:
\begin{itemize}
\item Проведений аналіз існуючих підходів по локалізації руки на відео та обробки цифрових зображень.
\item Реалізовані три методи та проведене дослідження їх роботи.
\item Реалізований зручний спосіб навчання Байесовскього класифікатора
\end{itemize}
Об'єктом дослідження є системи по локалізації людської руки у відеопотоці.
Предметом дослідження є методи та алгоритми формування системи детекції людської руки за допомоги веб камери чи камери глибини.
Наукова новизна отриманих результатів полягає у тому, що запропоновані методи обробки матриці ймовірностей Байесовського класифікатора, які покращують значення обох критеріїв.
Практичними результатами роботи є реалізація трьох алгоритмів, що працюють з точністю не меншою за 80\%. При дотриманні оптимальних умов точність досягає в середньому 96\% за першим критерієм. Також реалізовані методи обробки матриці ймовірностей, що покращує результати Байесовського класифікатора майже на 5\%.
Робота складається з чотирьох розділів. У першому розділі розглядається постановка задачі дослідження та актуальність проблеми. Другий розділ присвячений критеріям якості рішення задачі та опису алгоритмів локалізації людської руки на відео. У третьому розділі здійснено огляд технологій та алгоритмів, що використовуються в роботі, проведений порівняльний аналіз та наведено схеми програм. У четвертому розділі розглядається фунціонально-вартісний аналіз програмного продукту.