Данные от волонтеров помогли алгоритмам пересчитать пингвинов

Создатели проекта Penguin Watch, в рамках которого любой желающий может подсчитать антарктических пингвинов на снимках, использовали размеченные данные для создания двух алгоритмов, которые подсчитывают пингвинов автоматически. Первый, Pengbot, основан на алгоритме компьютерного зрения, а второй — на кластеризации по данным, размеченным волонтерами. В абсолютных цифрах второй алгоритм выигрывает у первого (он точнее), но эффективнее всего будет использовать оба: это позволит исключить ограничения волонтерского и компьютерного подсчета, пишут ученые в Scientific Data.

Несколько лет назад Фиона Джонс (Fiona Jones) из Оксфордского университета и ее коллеги организовали волонтерский проект Penguin Watch, в рамках которого установили 91 камеру для наблюдения за пингвинами в Антарктиде и на близлежащих островах. Обрабатывать снимки предложили всем желающим: на нескольких тысячах фотографий волонтеры отмечали взрослых пингвинов, птенцов и яйца. Всего наблюдатели рассмотрели 74 тысячи изображений, которые за ними потом проверили исследователи: оказалось, что волонтеры находят пингвинов в 96 процентах случаев (правда, испытывают трудности с тем, чтобы отличить птенца от взрослой особи).

Главная цель проекта — уточнить численность пингвинов в областях, куда исследователям добраться сложно. Помимо этого, довольно большой массив размеченных данных планировалось использовать и для обучения алгоритма компьютерного зрения, который позволил бы считать пингвинов автоматически. При этом непонятно, какой из двух способов — использование алгоритма или множества волонтеров — эффективнее.

Чтобы это проверить, для новой работы Джонс и ее коллеги разработали алгоритм Pengbot, основанный на сверточной нейросети — классически они используются для распознавания образов. Алгоритм обучали на 63 тысячах изображений с 14 разных камер, их разметили более 50 тысяч волонтеров. В свою очередь, данные, размеченные волонтерами, использовали для подсчета с помощью алгоритма кластеризации, основанном на методе ближайших соседей. Эта система учитывает передвижения пингвинов между снимками: если птица подвинулась на небольшое расстояние относительно тех, которые ее окружают, она распознается как одна особь, а если расстояние больше — считается другой птицей. В отличие от Pengbot, который пока что считает всех пингвинов без разбора, алгоритм кластеризации, основанный на волонтерских данных, различает взрослых особей и птенцов.

Результаты работы обоих алгоритмов сравнили с точным количеством пингвинов, которое подсчитали исследователи. Подсчет алгоритма, основанного на кластеризации и разметке волонтеров, оказался точнее.

При этом исследователи уточнили, что наиболее эффективным методом автоматического подсчета пингвинов было бы использование обоих алгоритмов. Компьютерное зрение, лежащее в основе Pengbot, лучше подходит для быстрого подсчета множества пингвинов, в то время как кластеризация на волонтерских данных годится в том случае, если пингвины, к примеру, прячутся за камнями. Один из вариантов объединения алгоритмов, который предлагают ученые, — первичная обработка изображений с помощью Pengbot и последующий подсчет волонтерами с кластеризацией. В своей статье авторы также открыли доступ ко всем датасетам и исходным кодам: любой желающий может использовать их для улучшения работы алгоритма по подсчету пингвинов.

Гражданская наука довольно часто помогает исследователям оценивать численность особей в дикой природе. Нередко для этого используют и туристические фотографии: в прошлом году с помощью них, например, удалось подсчитать крупных хищников в Ботсване.

Поделиться: