Предметна область дослідження
Будь-яке дослідження полягає у спостереженні за властивостями об'єктів з метою з'ясування та оцінювання значущих відносин і взаємозв'язків між показниками цих властивостей.
Предметна область включає в себе об'єкти, які розрізняються за властивостями і певним чином знаходяться в деяких відносинах і взаємопов'язані між собою. Рішення задач в області програмування починається з дослідження предметної області.
Предметна область - це частина дійсного світу, яка нескінченна і містить як значущі, так і несуттєві дані. Досліднику треба вміти виділяти їх істотну частину. Наприклад, вирішуючи завдання про видачу кредиту, значущими будуть рахуватися всі дані про приватне життя клієнта (чи є робота в чоловіка, чи виховує клієнт неповнолітніх дітей, освіта клієнта і т.д.). А для того щоб вирішити іншу задачу, пов'язану з банківською діяльністю, такі дані будуть абсолютно не істотні. Значимість даних залежить від того, що ми вибираємо як предметної області.
У процесі дослідження необхідно створити модель предметної області. Знання з різних джерел повинні бути формалізовані. Предметна область формалізується за допомогою будь-яких засобів. Засоби можуть бути самі різні. Це може бути текстовий опис предметної області або спеціалізована графічна нотація. За допомогою моделі предметної області описуються процеси, які відбуваються в ній, а також вивчаються дані цієї галузі дослідження.
Постановка завдання складається також з опису статичного і динамічного поведінки об'єктів, які ми досліджуємо. Опис статичного поведінки передбачає характеристику об'єктів і їх властивостей. При описі динамічної поведінки характеризуються причини поведінки об'єктів.
Динамічну поведінку об'єктів часто описують разом зі статичним поведінкою.
Іноді аналіз предметної області та постановка задачі об'єднуються в один етап.
На етапі визначення та аналізу вимог до даних проводиться моделювання даних, необхідних для здійснення Data Mining. Для цього досліджуються питання розподілу користувачів- аналітичні характеристики системи- питання доступу до даних, необхідним для аналізу.
Предметна область аналізується простіше і ефективніше, коли в організації є сховище даних. Однак далеко не на всіх підприємствах є такі сховища даних. У такому випадку джерелом для вихідних даних є оперативні бази даних, довідкові та архівні матеріали, тобто дані з вже існуючих ІС (інформаційних систем).
Ще може знадобитися інформація з ІС керівників, зовнішніх і внутрішніх джерел, різних документів на паперових носіях, а також знання фахівців та / або результати опитувань.
Необхідно також знати, що в процесі підготовки даних розробники програм повинні описати якомога більше факторів, які впливають на процес. Тут може здійснюватися кодування деяких даних. Наприклад, одна з характеристик клієнта - рівень його доходу, який може бути визначений як: дуже низький, низький, середній, високий, дуже високий. У цьому випадку треба визначити градації рівня доходу.
При визначенні потрібної кількості даних необхідно враховувати впорядкованість даних.
У тому випадку, коли вони впорядковані, необхідно дізнатися, чи включена в такий набір даних сезонна / циклічна компонента. Коли ж вони не впорядковані, тобто набір подій з бази даних не пов'язаний з тимчасової шкалою, то по ходу збору треба дотримуватися нижченаведені правила:
1) мале число записів в базі даних може бути причиною створення неадекватної моделі-
2) точність моделі може бути поліпшена зі збільшенням числа даних-
3) застарілі дані виключають з набора-
4) алгоритми, які використовують у цілях створення моделі із застосуванням дуже великих баз даних, повинні мати можливість масштабування.