Сегодня системы машинного обучения активно используют для прогнозирования: начиная от цен на биржевые акции и заканчивая выводами относительно медицинских диагнозов. Единственным трудно исследуемым моментом оставался сам процесс принятия подобных решений машинами.
Новый подход Массачусетского технологического института (MIT) показывает, что необходимо исследовать не только деятельность алгоритмов системы, но и общий способ сбора данных.
Модели прогнозирования должны объединять в себе точность и беспристрастность, ведь для некоторых сфер жизни (таких как, например, медицина или здравоохранение) некоторые данные могут быть непосредственно связанными с вопросом жизни и смерти.
«Ученые в области компьютерных наук часто говорят, что сделать эти системы менее предвзятыми можно с помощью проектирования лучших алгоритмов. Но алгоритмы настолько же полезные, как и информация, которую они используют, и наши исследования показывают, что такой подход может уменьшить возможности или точность данных», — говорит ведущий автор Ирен Чен, аспирант, работающий над этой проблемой вместе с профессором MIT Дэвид Сонтаг и доктором-исследователем Фредриком Д. Йоханссоном.
Анализируя конкретные примеры, исследователи смогли определить потенциальные причины различий, а также количественно оценить индивидуальное влияние каждого фактора на данные. Затем они показали, как изменение способа сбора данных может уменьшить каждый тип предвзятости, одновременно поддерживая такой же уровень прогнозируемой точности.
«Мы рассматриваем это как набор инструментов, чтобы помочь инженерам, работающими с машинным обучением, выяснять, как улучшить прогнозы и узнать почему именно они иногда являются неправильными», — говорит Сонтаг.
По словам Чена, одной из самых больших ошибок является мнение о том, что большее количество данных дает лучший результат. Сонтаг в свою очередь подчеркивает, что самое главное — это получить больше данных от групп, информация о которых является неполной.
«Мы можем составить кривые траектории, чтобы увидеть, что бы произошло, если бы мы добавили еще 2000 человек против 20 000. В итоге мы получим понимание размера данных, необходимых для определения наиболее точного и справедливого результата. С помощью более конкретизированного подхода, как этот, больницы и другие учреждения будут лучше оснащены, чтобы анализировать затраты и выгоды, и увидеть, было бы действительно полезно получить больше данных», — отмечает Чен.
Команда представит свои наработки в декабре на ежегодной конференции по системам обработки нейронных данных (NIPS) в Монреале, где станет известно еще больше подробностей проведенного исследования.