Сравнить Списки в Excel на Различия • Python в деле

Лучше, чем Excel: сервис сравнения клиентских списков

DaData.ru сделала сервис, который сравнивает списки контактных данных. Он берет несколько excel-файлов, ищет пересечения, объединяет списки в один и отмечает, откуда что взялось. Работает умнее «Экселя»: не боится транслита, опечаток, разных форматов телефонов с адресами и вообще молодец.

Прежде чем развернуться со статьей вовсю, выложу багаж: мы сгоряча сделали полезный сервис, но не уверены в численности аудитории. Этот материал — попытка измерить спрос, поэтому спасибо за похвалы и критику в комментариях. А теперь — начнем.

Бизнесу порой нужно сравнить списки клиентов: найти совпадения по ФИО, адреса́м, телефонам, емейлам. Вот примеры сценариев:

  • для каждого товара или услуги взять перечень покупателей и получить сводный список. Чтобы понять, что кому допродать;
  • понять, кто из приглашенных на событие зарегистрировался;
  • сравнить списки участников мероприятий и найти постоянных;
  • убрать существующих клиентов из списка лидов;
  • проверить клиентов по черному списку.

Чаще других списки сравнивают те, кто массово работает с группами клиентов: маркетологи, продажники, организаторы мероприятий, менеджеры колл-центров.

Обычно для таких целей используют Excel с его чудесной функцией ВПР — она ищет данные в строках, в том числе по формулам. Мы и сами так делали, пока не надоело.

Спору нет, Excel — светлый взлет мысли разработчиков MS. Продукт великий, но списки сравнивает так себе.

ВПР не справится, когда мало удалить лишние «черточки», кавычки и скобки. Попробуйте с «Экселем» и формулами разобраться, что эти значения равны.

Самый ад — адреса́, которые все пишут как бог на душу положит. С ними Excel и вовсе беспомощен.

Excel сравнивает не более двух списков за раз и только по одному столбцу. Просто напомню параметры функции ВПР: искомое значение (одно); диапазон для поиска значения; номер столбца (один) в диапазоне с возвращаемым значением; признак приблизительного совпадения.

Есть два списка с ФИО, емейлами и телефонами, их нужно сравнить по емейлам. Не вопрос, Excel справится.

А теперь чуть усложним:

— списков не два, а пять;

— сравнить нужно по ФИО + номеру телефона.

Искать «Экселем» будет как минимум неудобно.

Мы не знаем, как обойти эти ограничения «Экселя». А хотелось бы: люди записывают одни и те же данные в очень разных форматах, а списков часто больше двух.

Для начала бедолага, которому надоело сравнивать контакты в полуручном режиме, загружает один или несколько excel-списков.

Как только пользователь выбрал, по каким столбцам сравнивать, начинается магия и немного математики.

«Дадата» сравнивает записи по любому набору контактов: только по ФИО, по емейлу и телефону, по всем столбцам сразу

Первым делом сервис приводит все значения к одному знаменателю: адреса́ — к стандартизованному формату Почты России, телефоны — к полной форме с +7, в именах исправляет опечатки и транслит. В общем, готовит контакты к сравнению.

После этого «Дадата» стремительно сравнивает записи в файлах, для каждой пары назначая баллы похожести. В зависимости от количества баллов сервис делит записи на уникальные, одинаковые и похожие. Статистику показывает на экране.

Пользователь заранее видит, что творится в файлах, сколько там совпадений. И сам решает, нужно ли платить за объединение списков

Допустим, пользователь видит прок от сравнения и решает: неплохо бы скачать результат. Тогда «Дадата» создает итоговый файл.

Уникальные записи уходят в итоговый список как есть. Одинаковые сервис объединяет, собирая в единую запись всё из родительских.

Остаются контакты, с которыми «Дадата» не определилась: какие-то баллы похожести набрали, но для ярлыка одинаковости маловато. Без спроса объединять похожие записи нехорошо, но оставлять совсем уж без пометок тоже неправильно. Поэтому сервис группирует такие контакты, не объединяя. Их проверяют вручную, чтобы разобраться — одинаковые или все-таки разные.

«Дадата» собрала контакты, «размазанные» по разным файлам. Совпадения искала по ФИО и номеру телефона, а можно было и емейл подключить

С клиентами в итоговом списке делают что затевали: обзванивают и допродают товары, банят из-за попадания в черный список, еще раз приглашают на мероприятие тех, кто не зарегистрировался.

Изначально мы сделали алгоритм сравнения для федеральных компаний: банков, телекома, страховых. Кроме тех, кто в заголовке, им пользуются «Открытие», «Мегафон», «ВТБ Страхование».

Цена ошибки в бизнесе вроде банковского чертовски высока.

Центробанк не церемонится при проверке отчетов, поэтому ошибки обходятся в миллионы рублей.

Поэтому алгоритм видит совпадения, даже если данные в разных списках выглядят очень по-разному:

  • ловко находит ошибки в неславянских именах;
  • склоняет тюркские фамилии с окончаниями вроде «-заде»;
  • знает устаревшие названия улиц;
  • расшифровывает «НиНо» и «Мск»;
  • находит город по индексу.

В новом сервисе «Дадаты» — та же технология, только адаптированная для малого и среднего бизнеса. Различия в деталях: например, банки загружают данные не в Excel, для них делаем прямую интеграцию с базами данных. Но за другие деньги.

Поэтому готовый список можно брать в работу, не проверяя. Ну или проверить, если хочется.

На втором листе в итоговом файле сервис группирует похожие и одинаковые записи, не объединяя. Группы маркирует цветом. Полезно, если не доверяешь автоматике

Сервис просит по копейке за каждую запись в исходных списках. Меньше 100 записей — вообще бесплатно.

Если кто-то сравнивает два списка по 5000 записей, «Дадата» попросит 100 рублей. (0.01 рубля × 10 000 записей).

Не может быть такого, что человек загрузил файлы, заплатил 100 рублей, а сервис нашел ноль пересечений. Как уже говорил, «Дадата» сначала анализирует файлы и показывает статистику. А потом пользователь уже решает, платить или нет.

Правда, широкую аудиторию все это пока не очень впечатляет.

Важный актив «Дадаты» — аудитория. Мы на рынке с 2014-го, делаем много всякого для качества данных, люди в основном хвалят.

Поэтому новые сервисы продвигаем среди своих пользователей. На DaData.ru 20 000 активных аккаунтов, в рассылке — 10 000 емейлов. С ними и работаем прежде всего.

А для незнакомых с нами людей пишем статьи, такие как эта. В последнее время цель — скорее не продвинуть, а понять, имеет ли смысл заниматься пересечением списков дальше. Может быть, пора закрывать сервис.

Пока, врать не буду, идет тяжело. Судя по отзывам, главное возражение — «Есть же Excel». При том, что наша аудитория отлично знает разницу между «Дадатой» и «Экселем». Есть гипотеза, что люди привыкли, обросли готовыми формулами для сравнения списков и не хотят бросать.

Как бы там ни было, пока факт таков: «Сравнение списков» — бедный родственник среди сервисов «Дадаты». За прошлый год его применили всего 80 пользователей, обработав 2 500 000 записей.

Поэтому помогите нам закрыть сервис или сохранить ему жизнь: дайте знать в комментариях, что можно улучшить в «Пересечении списков». Есть ли вообще смысл продолжать?

Сравнить цифры в экселе
​. Не только сравнить​ в ячейке В46​ в​ стоит в другой​ Integer With Worksheets(1)​Tsvet​ сразу несколько таких​Чтобы легко проверить наличие​ Если количество раз​ для диапазона и​Автор: Антон Андронов​
специалист
Мнение эксперта
Витальева Анжела, консультант по работе с офисными программами
Со всеми вопросами обращайтесь ко мне!
Задать вопрос эксперту
случае формула вернет которых построена на статье Как объединить В, то окрасить указанных периодах одинаковые ячейки с разными , премии. Если же вам нужны дополнительные объяснения, обращайтесь ко мне!
Приведенная выше методика демонстрирует один способ, которым вы можете позволить Excel справиться с некоторыми тяжелыми задачами. Даже если вы уделяете пристальное внимание, есть вероятность, что вы можете пропустить изменение, если вы будете выполнять эту задачу вручную. Благодаря условному форматированию вы можете быть уверены, что ничего не проскальзывает в сеть
как сравнить два листа Excel рядом

Сравнить две таблицы excel / Хабр

​ жесткую ссылку -​ столбика с цифрами.​ для сравнения двух​ касающеюся объема продаж​ «Заливка» укажите зеленый​ сравниваются диапазоны ячеек:​ аргументов. Данные функции​ вернет ИСТИНА, если​Используйте функцию​ стоять, если есть​ форматирования.​

Понравилась статья? Поделиться с друзьями:
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: