Zsoft: Стандарты
     
 
Компания Zsoft
О компании
Партнёры
Заказчики
Услуги
Вакансии

Data Mining
Введение
Применение
Пример
Стандарты
Глоссарий

Продукты
Библиотека Xelopes:
О продукте
Применение
Лицензия
Документация
Демо

3D визуализатор Exero
О продукте

Визуализатор Recomendation Engine
Демо

Стандарты



Data Mining является достаточно новой и постоянно развивающейся областью информационных технологий. Однако уже сейчас, мы можем наблюдать вступление этой области в стадию относительной зрелости. Об этом, в частности, свидетельствует появление ряда стандартов, пытающихся упорядочить и согласовать достижение всей индустрии анализа данных за последнее десятилетие. Стандарты затрагивают три основных аспекта Data Mining. Во-первых, унификацию интерфейсов, посредством которых любое приложение может получить доступ к функциональности Data Mining. Здесь сложилось два направления. Это стандартизация интерфейсов для объектных языков программирования (CWM Data Mining, JDM, OLE DB for Data Mining) и попытки разработки надстройки над языком SQL, которая позволяла бы обращаться к инструментарию Data Mining встроенному непосредственно в реляционную базу данных (SQL/MM, OLE DB for Data Mining). Второй аспект стандартизации - это выработка единого соглашения по хранению и передачи моделей Data Mining. Не трудно догадаться, что основой для подобного стандарта является язык XML. Сам стандарт носит название PMML (Predicted Model Markup Language). И, наконец, существует стандарт CRISP, который дает рекомендации по организации процесса Data Mining в целом.

Краткий обзор стандартов Data Mining:

CWMOMG Common Warehouse Metamodel (CWM)
Chapter 14 Data Mining www.omg.org
CWM standardizes a basis for data modeling commonality within an enterprise, across databases and data stores. Building on a foundation metamodel, it adds metamodels for relational, record, and multidimensional data; transformations, OLAP, and data mining; and warehouse functions including process and operation. CWM maps to existing schemas, supporting automated schema generation and database loading. This makes it the basis for data mining and OLAP across the enterprise.
*XELOPES core data mining model (platform independent model) extends CWM.

The Data Mining Group (DMG)
Predictive Model Markup Language (PMML) www.dmg.org
PMML is an XML-based language which provides a quick and easy way for companies to define predictive models and share models between compliant vendor's applications. PMML provides applications a vendor-independent method of defining models so that proprietary issues and incompatibilities are no longer a barrier to the exchange of models between applications. It allows users to develop models within one vendor's application, and use other vendor's applications to visualize, analyze, evaluate or otherwise use the models. Previously, this was virtually impossible, but with PMML, the exchange of models between compliant applications now will be seamless.
*XELOPES uses PMML as internal serializable format.

ISO/IEC JTC1 SC32 WG4: SQL/MM Part 6 Data Mining
www.acm.org/sigmod/record/issues/0112/standards.pdf
A collection of SQL user-defined types and routines to compute and apply data mining models.
*XELOPES has connector to SQL/MM.

The Java Data Mining standard (JDM)
Sun Microsystems Logo
www.jcp.org/jsr/detail/73.jsp
This standard is currently developed by the JSR 73 group and will be released in the near future. The JDM standard takes into account the CWM as well as the PMML and SQL/MM standards. When the JDMAPI Java-standard will be launched.
*XELOPES will include a connector to JDMAPI.

The OLE DB for Data Mining standard of Microsoft
www.microsoft.com/data/oledb/
It allows similarly to SQL/MM to apply Data Mining methods in the framework of relational databases. This standard is an extension of OLE DB and quite Microsoft-specific.
*XELOPES has connector to OLE DB for Data Mining.

The Cross Industrie Standard Process for Data Mining (CRISP)
crisp_dmwww.crisp-dm.org/index.htm
The CRISP-DM project has developed an industry- and tool-neutral Data Mining proc-ess model. Starting from the embryonic knowledge discovery processes used in industry today and responding directly to user requirements, this project defined and validated a data mining process that is applicable in diverse industry sectors. This will make large data mining projects faster, cheaper, more reliable and more manageable. Even small scale data mining investigations will benefit from using CRISP-DM.

*The value of this model is rather philosophical; therefore it should not be considered in the XELOPES.





Выбрать язык

Ссылки
Третье издание
Второе издание