Профілювання даних — це процес вивчення даних, доступних із існуючого джерела інформації і збору статистичних чи інформативних підсумків щодо цих даних.
Мета профілювання
Метою процесу може бути:
- Потреба в інформації чи можна легко використати існуючі дані для інших цілей
- Покращення можливостей пошуку даних, позначивши їх ключовими словами, описами або призначивши їх категорії
- Оцінка якості даних, включно з тим, чи відповідають дані певним стандартам або шаблонам
- Оцінка ризиків, пов'язані з інтеграцією даних у нові програми, включно з проблемами об'єднань
- Відкриття для себе метаданих вихідної бази даних, включаючи шаблони значень і розподіли, кандидати на ключі, кандидати на зовнішні ключі та функціональні залежності
- Можливість оцінки, чи відомі метадані точно описують фактичні значення у вихідній базі даних
- Розуміння проблем з даними на ранній стадії будь-якого проєкту з інтенсивним використанням даних, щоб уникнути пізніх сюрпризів. Виявлення проблем із даними на пізньому етапі проєкту може призвести до затримок і перевитрат.
- Отримання корпоративного перегляду усіх даних[1] для таких цілей, як керування основними даними, де потрібні ключові дані, або управління даними для покращення якості даних.
Особливості процесу профілювання
Профілювання даних відноситься до аналізу інформації для використання в сховищі даних, щоб прояснити структуру, зміст, взаємозв'язки та правила отримання даних. Профілювання допомагає не тільки зрозуміти аномалії та оцінити якість даних, але й виявити, зареєструвати та оцінити корпоративні метадані. Результат аналізу використовується для визначення придатності вихідних систем-кандидатів, що зазвичай дає основу для раннього прийняття/неприйняття рішення, а також для виявлення п рішення. Як проводиться профілювання даних
Профілювання даних використовує методи описової статистики, такі як мінімум, максимум, середнє значення, мода, процентиль, стандартне відхилення, частота, варіація, агрегати, такі як підрахунок і сума, а також додаткову інформацію метаданих, отриману під час профілювання даних, таку як тип даних, довжина, дискретні значення, унікальність, поява нульових значень, типові шаблони рядків і розпізнавання абстрактних типів. Потім метадані можна використовувати для виявлення таких проблем, як недопустимі значення, орфографічні помилки, відсутні значення, різне представлення значення та дублікати.
Для різних структурних рівнів проводяться різні аналізи. Наприклад окремі стовпці можна профілювати окремо, щоб отримати розуміння частотного розподілу різних значень, типів і використання кожного стовпця. Залежності вбудованих значень можна виявити в аналізі між стовпцями. Нарешті, набори значень, що перекриваються, можливо, представляють відносини зовнішнього ключа між сутностями, можна досліджувати в міжтабличному аналізі.
Складність обчислень зростає при переході від одного стовпця до однієї таблиці та міжтабличного структурного профілювання. Тому продуктивність є критерієм оцінки інструментів профілювання.
Застосування
Профілювання даних виконується кілька разів і з різною інтенсивністю протягом усього процесу розробки сховища. Полегшену оцінку профілювання проводять відразу після визначення вихідних систем-кандидатів і задоволення бізнес-вимог DW/BI (англ. Business Intelligence/Data Warehousing). Мета початкового аналізу полягає в тому, щоб з'ясувати, чи доступні правильні дані на відповідному рівні деталізації і чи можна усунути аномалії. Якщо це не так, проект може бути припинено.
Пперед процесом розмірного моделювання виконується більш поглиблене профілювання, щоб оцінити, що потрібно для перетворення даних у розмірну модель. Детальне профілювання поширюється на процес проектування системи ETL, щоб визначити відповідні дані для вилучення та які фільтри застосувати до набору даних.
Крім того, профілювання даних може проводитися в процесі розробки сховища даних після того, як дані були завантажені в проміжну продукцію чи вітрини даних . Проведення даних на цих етапах допомагає переконатися, що очищення та перетворення даних виконано правильно та відповідно до вимог.
Переваги та приклади
Переваги профілювання даних полягають у покращенні якості даних, скороченні циклу реалізації великих проєктів і покращенні розуміння даних користувачами. Виявлення бізнес-знань, вбудованих у самі дані, є однією із значних переваг профілювання даних. Профілювання даних — це одна з найефективніших технологій для підвищення точності даних у корпоративних базах даних.[джерело?]
Див. також
Примітки
Література
- Джонсон, Теодор (2009). «Профілювання даних». У Springer, Heidelberg (ред.). Енциклопедія систем баз даних.
- Вудолл, Філіп; Обергофер, Мартін; Борек, Олександр (2014). «Класифікація методів оцінки якості даних і покращення». Міжнародний журнал якості інформації. 3 (4): 298. doi:10.1504/ijiq.2014.068656.
- Кімбол, Ральф; та ін. (2008). Набір інструментів життєвого циклу сховища даних. С. 376. ISBN 9780470149775.
- Лошин, Девід (2009). Керування основними даними. Морган Кауфман. С. 94–96. ISBN 9780123742254.
- Лошин, Девід (2003). Бізнес-аналітика: Посібник для кмітливого менеджера, вступ до нових ІТ. Морган Кауфман. С. 110—111. ISBN 9781558609167.
- Рам, Ерхард; Hai Do, Hong (грудень 2000). «Очищення даних: проблеми та сучасні підходи». Бюлетень технічного комітету з інженерії даних. IEEE Computer Society. 23