Разумнее всего ожидать, что общедоступный релиз SQL Server 2025 состоится в этом месяце. На следующей неделе пройдут две крупные конференции в экосистеме данных Microsoft — Microsoft Ignite и PASS Summit. Почти все последние версии выходили как раз под такие мероприятия, а раз они проходят в одну неделю, то очень вероятно, что именно тогда и прозвучат анонсы.
Поэтому Стив Джонс предложил нам написать, что именно в новой версии нас радует. Возможно, слово «восторг» здесь не совсем уместно, но Стив явно хочет понять, какие функции облегчат нам жизнь. Он перечисляет несколько вариантов, а для меня главным событием становится, пожалуй, новый набор функций для нечёткого сравнения строк.
Одной из самых заметных тенденций последних двадцати лет я считаю наведение порядка в данных. Порой кажется, что тема качества данных отошла на второй план, особенно с появлением Big Data: одна из особенностей структурированных данных в том, что качество временами бывает низким. Подсказки ИИ разучили нас аккуратно печатать: система всё прощает. Но если вам нужно понять, как у человека написано имя — Steven или Stephen, — то, даже если ИИ это безразлично, самому Стиву, скорее всего, нет. И даже если два имени звучат одинаково, родительская «креативность» не знает границ: дочь назвали Khloe, а оператор колл-центра запишет как Chloe, Clooey или что-нибудь ещё. Кафе и с моим именем порой путаются, что уж говорить о людях с именами вне топ-10 последнего столетия (занимательный факт: судя по данным, в США имя «Robert» было на первом месте с 1924 по 1939 год, а в десятке лидеров оставалось до 1972-го. Я родился двумя годами позже, выходит, мои родители трендам не следовали — но меня назвали в честь шотландского короля, и, возможно, мне повезло, что в маминой семье уже был Брюс). Так что, хотя данные становятся всё более НЕструктурированными, нам всё настойчивее приходится заботиться, чтобы наши Большие данные были ещё и Хорошими данными. Высокого качества. С правильными написаниями.
Мне очень жаль, что Master Data Services уходит из продукта вместе с SQL Server 2025. Средства Master Data — отличный способ работать со списками, то есть с проверенными сведениями из доверенных источников. Да, есть альтернативы (например, держать где-то экземпляр SQL Server 2022 или перейти на сторонний продукт вроде Profisee, где есть хорошие инструменты для поиска совпадений), но этот аспект SQL Server 2025 меня совсем не радует.
Зато SQL Server 2025 приносит отличные возможности для нечёткого сопоставления строк, делая индивидуальные практики обеспечения качества данных ещё богаче. Я уже рассказывал об этом на нескольких встречах сообществ (включая завтрашнее выступление для TriPASS в формате удалённого доклада, а через пару недель — в Мельбурне и Сиднее на Difinity), и в том докладе я куда глубже разбираю подходы к сопоставлению данных. Я напишу об этих методиках и в будущих постах, но тема большая: понадобится несколько публикаций и целый ряд подтем.
А пока загляните в документацию Microsoft по нечёткому сопоставлению строк (Что такое нечеткое сопоставление строк?). Вы увидите там четыре новые функции, охватывающие понятия схожести и расстояния для двух алгоритмов: Edit Distance и Jaro–Winkler.
У нас уже больше двадцати лет есть Fuzzy Lookup и Fuzzy Grouping в SSIS и Power Query (точнее, в Power Query Online), но они всегда ощущались как «чёрные ящики». Конечно, можно прогнать все данные через преобразование Fuzzy Grouping, но настроек тонкой регулировки там немного. Теперь же я могу найти группу кандидатов на совпадение, а затем применить собственную логику, используя новые функции.
Следите за более длинными и техническими публикациями через месяц или около того (после завершения конференций), а пока оцените, где эти новинки могут пригодиться прямо в вашем текущем коде сопоставления данных.

Комментариев нет:
Отправить комментарий