Сила Data Fusion:
как две компании сделали модель для более точной оценки заёмщиков
Скоринг-модель нового поколения берёт в расчёт не только кредитную дисциплину, но и другие обезличенные данные.
Проблема действующих моделей
Современные скоринговые модели в финансовой сфере берут в расчёт пол, возраст, семейное положение, доход и кредитную историю заёмщика. Однако есть много факторов, которые скрыты от игроков рынка, но при этом могут влиять на платёжеспособность клиента. Не закладывая эту информацию в модель, банк просто не может учесть все риски, например оценить финансовое положение новых клиентов без кредитной истории.
Решение
Чтобы увеличить точность скоринговой модели, участники рынка реализовали один из первых успешных кейсов объединения данных — Data Fusion. Партнёрами выступили Platforma, разработчик бизнес-решений на основе Big Data, и Объединённое кредитное бюро (ОКБ), ведущий оператор кредитных историй в России.
Platforma объединяет данные десятков партнёров из финансового и нефинансового секторов экономики, и среди них можно найти множество пересечений. Например, через инфраструктуру «Ростелекома» в год проходит около 5 млрд звонков с 130 млн номеров. Вероятность, что среди них есть звонки банковских заемщиков, достигает 80%.
Анонимизированные данные о звонках — это фрагмент пазла, которого не хватает игрокам финансового рынка, чтобы поднять точность своих скоринговых моделей. В рамках совместного проекта аналитики дополнили этой информацией скоринговую модель ОКБ. Для этого «Ростелеком» предоставил данные в виде векторов — наборов цифр на основе звонковой активности пользователей. Такой формат полностью в правовом поле: все сырые данные остаются у передающей стороны, а бизнес получает пользу без риска раскрытия информации.
Результат
Аналитики ОКБ проверили эффективность скоринговой модели на кредитных историях заёмщиков, которые пользовались разными банковскими продуктами. Лучший результат модель показала в автокредитовании: дополнив кредитные истории плательщиков данными о звонках, распределяющую способность модели удалось улучшить на 5 пунктов Джини. Эта метрика показывает, насколько точно модель вычисляет принадлежность человека к одной из групп. Чем больше показатель, тем выше вероятность, что модель подскажет банку правильное решение: одобрить кредит тому, кто будет вовремя его выплачивать, или отказать потенциальному должнику.
Перспективы
Сделать банковские модели точнее могут также данные о поведении пользователей в интернете. Например, клиенты, которые интересуются катанием на лошадях или трансатлантическими перелётами, с высокой долей вероятности могут оказаться надёжными плательщиками, а у тех, кто часто посещает сайты микрофинансовых организаций, может быть потенциальная склонность к низкой кредитной дисциплине. Работа в этом случае также будет происходить с обезличенными векторами данных: данные пользователей останутся на стороне РТК и не будут раскрыты.
У Data Fusion большие перспективы для создания инструментов, которые приносят реальную пользу бизнесу. Platforma реализует и другие проекты в этом направлении и скоро поделится результатами.