Сегодня большинство компаний сталкиваются с серьезной проблемой: данные в их информационных системах постоянно деградируют, а традиционные подходы к очистке не дают необходимого эффекта. В результате организации вынуждены постоянно проводить дорогостоящие процессы дедупликации и нормализации, отвлекая ресурсы компании от основной деятельности.
Современный подход – применение технологий искусственного интеллекта и машинного обучения. Гибридные модели классификации, семантический поиск на основе языковых моделей, интеллектуальная экстракция характеристик – эти инструменты позволяют не просто автоматизировать процесс нормализации, но и обогащать данные, обучаясь на реальных примерах работы пользователей.
В этой статье мы разберем, какие задачи решают современные AI/ML-инструменты, почему они эффективнее традиционных методов и как их внедрение трансформирует управление данными в организации.
Причины деградации нормативно-справочной информации

Откуда берется хаос НСИ? Первая и наиболее распространенная причина – параллельное функционирование нескольких информационных систем, которые не взаимодействуют между собой. Когда отделы компании независимо друг от друга вводят одни и те же справочные единицы, неизбежно возникают дубли, так как каждый пользователь вносит данные по-своему.
Различные подходы к внесению информации усугубляют эту проблему. Когда отделы используют разные методологии заполнения, одно изделие неизбежно становится тремя: под названием поставщика в закупках, под внутренним кодом на складе, под торговым наименованием в продажах. Фактически речь идет об одном и том же изделии, но в разных системах это будут три разные позиции.
Что ещё может ускорить деградацию данных?
- Организационные изменения – создание новых компаний, слияния и поглощения – также порождают новые информационные системы и, как следствие, множество дублей справочной информации
- Человеческий фактор играет немаловажную роль в деградации данных. Пользователи допускают опечатки, используют различные сокращения и вариации написания одного и того же наименования. Один сотрудник может записать «алюминиевый профиль», другой – «ал. Профиль», третий – «профиль алюм.», и в результате система содержит несколько идентичных элементов с разными написаниями.
- Неполнота НСИ. На начальных этапах внедрения системы принимаются обоснованные решения о заполнении расширенного набора характеристик. Однако по мере развития проекта контроль качества неизбежно ослабевает, что приводит к частичному заполнению данных и потере полноты информации.
- Устаревшие наименования и обозначения становятся проблемой, когда меняются ГОСТы и стандарты. Одни и те же элементы справочников могут быть заведены по-разному в зависимости от версии стандарта. Кроме того, попытка точного соответствия спецификациям поставщиков создает дополнительные сложности, так как разные поставщики часто используют разные обозначения для одной и той же номенклатуры.
Примеры задач, решаемых с использованием сервиса SOFROS AI/ML

SOFROS AI/ML помогает компаниям перейти от разрозненной и трудоемкой работы с нормативно-справочной информацией к управляемому, масштабируемому и интеллектуальному процессу повышения качества данных. Сервис автоматизирует ключевые операции с НСИ, снижает нагрузку на экспертов и повышает точность, полноту и сопоставимость корпоративных справочников. Подробнее о том, что представляет собой сервис SOFROS AI/ML.
Интеллектуальный поиск и семантическая фильтрация данных
Сервис расширяет возможности традиционного поиска по НСИ за счет контекстного и семантического анализа. Модели учитывают не только точные совпадения, но и смысловые связи, синонимы, отраслевую терминологию и особенности описаний. Это позволяет быстрее находить нужные позиции, выявлять близкие записи и повышать релевантность результатов поиска даже при неполных или неоднородных данных.
Автоматическая классификация и категоризация
SOFROS AI/ML автоматически распределяет данные по заданным категориям: отраслям, регионам, типам организаций, группам продукции, классам материалов и другим признакам. Это ускоряет обработку больших массивов НСИ, снижает количество ручных операций и обеспечивает единый подход к классификации данных в рамках корпоративных стандартов.
Извлечение характеристик, шаблонизация и нормализация
Модели автоматически выделяют значимые характеристики из наименований, описаний и справочных записей, приводят их к единой структуре и формату. Сервис помогает стандартизировать разнородные записи, формировать шаблоны описаний, нормализовать значения и устранять неоднозначность в данных. Это особенно важно при работе с большими справочниками, где ручная обработка требует значительных ресурсов и не всегда обеспечивает стабильное качество.
Повышение качества и полноты данных
SOFROS AI/ML помогает системно улучшать качество НСИ, делая данные более точными, полными, структурированными и пригодными для дальнейшего использования в бизнес-процессах. Для дообогащения характеристик могут использоваться как внутренние корпоративные источники, так и открытые данные из интернета. Это позволяет дополнять карточки объектов недостающими параметрами, уточнять описания и повышать ценность справочной информации для пользователей и смежных систем.
Валидация результатов нормализации
Сервис обеспечивает проверку качества нормализации на основе обученных датасетов и технологий повторной нормализации, включая подход Leave-one-out. Такой механизм позволяет сравнивать результаты обработки с эталонными или ранее подтвержденными данными, выявлять отклонения и повышать доверие к результатам как автоматической, так и ручной нормализации.
Выявление и устранение дубликатов
SOFROS AI/ML помогает находить полные и неочевидные дубликаты в справочниках НСИ, включая записи с различиями в написании, структуре, порядке слов или наборе характеристик. Это позволяет сократить избыточность данных, повысить точность справочников и снизить риски ошибок в закупках, учете, аналитике и интеграционных процессах.
Контроль полноты и корректности выделения характеристик
Сервис сравнивает результаты выделения характеристик с эталонными данными, корпоративными правилами и отраслевыми стандартами. Он выявляет пропущенные параметры, проверяет корректность терминологии, контролирует соответствие заданным критериям и помогает исправлять ошибки. В результате компании получают более надежную и стандартизированную структуру НСИ.
Интеграция с корпоративными системами
SOFROS AI/ML может встраиваться в существующий ИТ-ландшафт клиента и работать совместно с MDM-системами, инструментами анализа данных, BI-платформами и ERP-решениями. Уже реализованы сценарии интеграции с BI-системами и бесшовного взаимодействия с SAP-ландшафтом. Это позволяет использовать возможности AI/ML непосредственно в привычных бизнес-процессах без необходимости создавать отдельный изолированный контур обработки данных.
Результат для бизнеса

В результате SOFROS AI/ML становится не точечным инструментом для одной операции, а технологической платформой для комплексной работы с НСИ. Сервис поддерживает полный цикл повышения качества данных: от интеллектуального поиска, классификации и извлечения характеристик до нормализации, валидации, дообогащения и устранения дублей.
Архитектура решения позволяет гибко выбирать оптимальный сценарий под требования конкретного клиента. Для задач с повышенными требованиями к безопасности могут использоваться локальные языковые модели внутри защищенного контура без передачи данных во внешние сервисы. В случаях, где это допустимо и экономически оправдано, возможно подключение облачных моделей.
Такой подход обеспечивает конфиденциальность, снижает зависимость от внешних провайдеров и расхода токенов, а также позволяет применять AI/ML не как экспериментальную технологию, а как надежный практический инструмент для ежедневной работы с корпоративными данными.
Оцените актуальность AI/ML для задач нормализации данных в вашей компании. Пройдите короткий опрос за 2 минуты и получите полезный материал с практическими сценариями применения AI/ML для качества и нормализации данных.
Интересны детали?
Смотрите запись вебинара на нашем канале:
И обязательно подпишитесь на нас в социальных сетях, чтобы не пропустить новые полезные материалы, а также специальные акции для участников мероприятий.