Вестник цифровой трансформации

«Нетология», MTS AI и NtechLab: курс разметки данных для людей с ограничениями
«Нетология», MTS AI и NtechLab: курс разметки данных для людей с ограничениями

Разметка данных – реальный способ для людей с ограниченными возможностями начать карьеру в ИТ. Люди с аутистическими расстройствами внимательны к деталям, усидчивы и могут запоминать большие объемы информации. Это их конкурентное преимущество.


18:57 27.03.2023  |  Николай Смирнов | 2742 просмотров



Анна Дружкина, руководитель центра работы с данными MTS AI, Валентина Куренкова, GR-директор "Нетологии" и Надежда Глебко, руководитель группы по разметке данных NtechLab, – о запуске бесплатного обучающего курса по разметке данных людей с расстройствами аутистического спектра и другими ограничениями здоровья.

«Нетология», MTS AI и NtechLab совместно разработали бесплатный обучающий курс по разметке данных, целевая аудитория которого – люди с расстройствами аутистического спектра и другими ограничениями здоровья. С учетом дефицита таких специалистов это поможет выпускникам стать востребованными. О реализации проекта рассказывают номинанты на премию Data Award – Анна Дружкина, руководитель центра работы с данными MTS AI, Валентина Куренкова, GR-директор «Нетологии» и Надежда Глебко, руководитель группы по разметке данных NtechLab.

— Как родилась идея этого проекта?

Надежда Глебко: Идея сделать инклюзивный онлайн-курс по разметке данных пришла мне после успешного опыта стажировки и трудоустройства сотрудника с расстройством аутистического спектра (РАС). Я увидела, что особенности РАС в каком-то смысле помогают размечать данные, как это ни удивительно. Разметка данных предполагает долгий и однообразный труд, требующий внимания, усидчивости, способности обнаружить свои ошибки. Для многих людей работа исключительно по инструкции и без разнообразия воспринимается тяжело, но не для людей с РАС. В силу специфики функционирования когнитивных функций именно шаблонная работа дается им легче всего – а в разметке как раз не должно быть вариативности, все строго по инструкции. Кроме того, разметка данных обладает низким порогом вхождения в профессию и может осуществляться из любой точки мира с компьютером и интернетом, поэтому такой вариант подработки может стать для многих в буквальном смысле спасением. Также стоит отметить, что разметка данных становится все более востребованной, а потому спрос на грамотных специалистов растет. Именно эти наблюдения и привели к созданию этого проекта. Безусловно, NtechLab в одиночку было бы тяжело реализовать эту идею, поэтому после недолгих обсуждений с коллегами из МТС и «Нетологии» было принято решение о реализации проекта.

Валентина Куренкова: К нам обратились наши партнеры из NtechLab с предложением вместе поработать над таким курсом. У нас уже есть опыт обучения людей с ограниченными возможностями здоровья. В прошлом году в рамках проекта «Цифровые профессии» у нас начали обучаться более 3 тыс. людей с инвалидностью, а мы адаптировали образовательные программы в соответствии с потребностями таких людей.

Анна Дружкина: Разметка данных – относительно новая специальность, которой нигде не учат. А потребность в разметчиках действительно растет день ото дня. У нас в компании есть постоянная необходимость в разных видах разметки аудио, текста и изображений. Мы регулярно проводим обучение новых приходящих к нам сотрудников, так что у нас довольно обширная экспертиза. Мы рады возможности доработать наш курс и прочитать его для новой аудитории. Более того, у нас есть сотрудники с ограниченными возможностями здоровья, и это очень позитивный опыт.

— На какие именно ограничения здоровья ориентировались? Кто является целевой аудиторией?

Н.Г.: При разработке онлайн-курса мы прежде всего ориентировались именно на РАС, поскольку именно с такими ребятами был опыт взаимодействия. Тем не менее, эксперты постарались максимально расширить целевую аудиторию, чтобы люди с различными ограничениями здоровья – например, моторными или слуховыми – также могли пройти обучение. Конечно, здесь стоит учитывать, что мы в любом случае не обучим всех. Несмотря на низкий порог входа, разметка данных требует развитых коммуникативных навыков, уверенного владения ПК, способности понимать инструкции и ориентироваться на нее при работе, а это могут далеко не все люди. Но перспективность данного проекта от этого не теряется.

В.К.: Люди с аутистическими расстройствами внимательны к деталям, усидчивы и могут запоминать большие объемы информации. Это, если хотите, их суперспособность и конкурентное преимущество. Поэтому мы верим, что у наших студентов получится реализовать себя в сфере ИТ.

— Каковы задачи проекта?

Н.Г.: Наша задача – научить студентов такой востребованной в последнее время специальности, как разметка данных. Мы создали курс, в котором обучаем студентов разным видам разметки текста, аудио, видео и изображений. Мы учим их пользоваться распространенными инструментами разметки, а также рассказываем, как начать карьеру в области разметки данных и как взаимодействовать с заказчиками.

А.Д.: Общая цель курса состоит в том, чтобы дать слушателям представление о профессии разметчика: показать само существование такой возможности и помочь им освоить специальность разметчика. Таким образом, надо познакомить студентов с основными видами разметки, с полным циклом рабочего процесса разметчика, от постановки задачи до оценки качества разметки, дать возможность попрактиковаться на реальных заданиях.

— Что собой представляет курс?

Н.Г.: Курс рассчитан на 100 студентов и проходит в четыре потока. Сейчас проходят первые два потока курса, и студенты уже приступили к подготовке дипломных проектов. Каждый поток курса длится три месяца (22 часа теории и 28 часов практики в формате видеолекций, онлайн-встреч с преподавателями и практических заданий).

А.Д.: За это время студенты осваивают разметку изображений: классификацию, выделение объектов, сегментацию; разметку видео; разметку аудио: отекстовку (транскрибирование с привязкой ко времени) и сравнение; разметку текста: выделение именованных сущностей, классификацию, вопросно-ответные задачи, задачи генерации текста. Также они узнают некоторые базовые понятия из области машинного обучения, а также проходят небольшой карьерный блок, посвященный старту в профессии. Таким образом, студенты осваивают полноценную профессию разметчика.

В.К.: За три месяца обучения студенты освоят два инструмента и научатся размечать в них четыре типа данных: изображения, аудио, видео и текст. Каждую неделю студентов ждет практическое занятие с экспертом, на котором участники рассмотрят, как инструмент работает на практике, домашнее задание с проверкой, а также онлайн-консультация с преподавателем, где студенты смогут задать свои вопросы. Одна неделя – одна задача в копилку студента. По итогам обучения слушатель выполняет проект. Ему предстоит разметить большой датасет самостоятельно. После обучения студентов ждет карьерный блок, где мы совместно с партнерами расскажем ребятам, как найти работу, и сопроводим их в поиске первого проекта на краудсорсинговых платформах.

— Как учитываются в ходе обучения особенности студентов? Или в этом нет необходимости?

Н.Г.: На самом деле, каких-то существенных отличий в процессе обучения от других онлайн-курсов нет. Обучение в данном случае не должно быть легким, а для самих студентов не должно быть особых поблажек, поскольку целью обучения является подготовка востребованных специалистов. Однако, безусловно, мы учитывали особенности потенциальных студентов с РАС. Перед запуском первого потока все причастные к курсу эксперты и специалисты проходили специальный тренинг на тему того, как лучше вести коммуникацию. В качестве особенностей, например, можно выделить то, что наши студенты всегда задают много вопросов – заметно больше обычного. Также на занятиях всегда необходимо давать больше деталей, прописывать и проговаривать все то, что кажется очевидным. Это может показаться нудным и мешающим процессу, но вкладываться в сотрудников на этапе обучения важно и полезно для любого работодателя, если он хочет видеть эффективность в дальнейшем.

— Какие платформы и данные используются?

А.Д.: Для разметки используются платформы CVAT и Label Studio, одни из самых широко используемых платформ для разметки. Важно давать актуальные инструменты, чтобы у студентов был опыт с реальными инструментами и материалами.

В качестве «сырых данных» мы используем наши рабочие инструкции, адаптированные под программу курса, и реальные данные, которые можно распространять, а также данные из открытых корпусов и материалы соревнований по машинному обучению.

— Каковы первые результаты?

В.К.: Первый поток уже приступает к дипломным задачам. Второй поток проходит занятия. Набраны третий и четвертый поток. До конца 2023 года мы планируем обучить 100 студентов.

А.Д.: Мы будем помогать выпускникам с трудоустройством, как в МТС и NtechLab, так и в компании наших партнеров. На реальных примерах докажем: людям с аутизмом есть место в ИТ.

— Получаются действительно полноценные специалисты?

Н.Г.: Основываясь на собственном опыте и опыте коллег, например, из «МВС Груп», могу с уверенностью сказать, что ребята с РАС – прекрасные кандидаты на разметчиков данных. На данный момент такой наш сотрудник выполняет все поставленные ему задачи. Конечно, в начале всегда надо немного помочь с объяснением задания. Однако при должном уровне организации работы и построения коммуникации это не составляет большого труда.

— Среди других компаний есть интерес?

Н.Г.: Чем больше мы освещаем эту тему, тем выше интерес. Многие компании опасаются вступать на путь инклюзии, поскольку видят для себя в этом разные риски, например, большие затраты различных ресурсов. Также велико и влияние стереотипных представлениях о «не таких» людях. Правда же состоит в том, что каждый из нас – обычный человек со своими особенностями. И когда удается показать компаниям вокруг, что ребят с РАС не стоит бояться и что помогать находить таким людям работу – это не только про благотворительность, но еще и про пользу компании, вот тогда интерес начинает появляться. Надеюсь, что данный курс послужит катализатором развития инклюзивности во многих ИТ-компаниях.

А.Д.: Да, коллеги из других компаний интересуются и нашим проектом, и возможностями найма и стажировок наших выпускников.

— В чем роль проекта для общества?

А.Д.: Это первый в России подобный курс, который помогает людям с ограниченными возможностями здоровья получить востребованную специальность. Мы рассчитываем, что благодаря таким проектам у людей с ограниченными возможностями здоровья появится возможность быть востребованными. Разметчиков данных не хватает на рынке, в то время как потребность в них постоянно растет, поскольку компаниям постоянно необходимы обработанные данные для эффективного обучения систем искусственного интеллекта.

Разметка данных – реальный способ для людей с ограниченными возможностями начать карьеру в ИТ. Люди с аутистическими расстройствами внимательны к деталям, усидчивы и могут запоминать большие объемы информации. Это их конкурентное преимущество. Поэтому мы верим, что у наших студентов получится реализовать себя в новой профессии.

В.К.: Мы верим, что проект поможет людям с ограниченными возможностями здоровья получить новую профессию и изменить жизнь.

А.Д.: Конечно, наш курс учит тех, кто хочет научиться разметке данных, но не менее важно то, что у людей появляется представление о самом существовании такой профессии.

— Есть ли у вас планы по развитию проекта?

Н.Г.: Курс стартовал только недавно, поэтому конкретные планы по развитию имеет смысл строить по итогам первых потоков, чтобы оценить эффективность обучения и т.д. Однако уже на данный момент есть идеи по поводу расширения целевой аудитории, чтобы разметка данных была еще более доступной для освоения.

 

Теги: Data Award