Подготовка данных с помощью Fuzzy Matching

Недавно передо мной встала задача — нужно было объединить 2 таблички, содержавшие информацию по зданиям. Казалось бы задача на 5 минут — берешь Excel, присоединяешь с помощью ВПР нужные записи и готово! Однако быстрая проверка показала, что таким образом я смог объединить только 20% записей. Сравнить списки вручную тоже было затруднительно, так как в каждом было по 15 тыс. записей, и мне пришлось бы перебирать их вручную, чтобы найти совпадения.

Тем не менее с использованием алгоритмов нечеткого соединения (fuzzy matching) мне удалось существенно улучшить результаты. Я смог сопоставить 58% зданий, а в некоторых случаях довести количество сопоставленных записей до 80%. 

В этой статье я хочу рассказать о том, что же это за алгоритмы и как их можно применять на практике.

Продолжить чтение «Подготовка данных с помощью Fuzzy Matching»