1、数据挖掘定义
提取数据库中大量数据背后隐藏的重要信息,给企业带来很多潜在的利益。 从这样大量的数据库中挖掘数据信息的技术称为数据挖掘(DM )。
根据
2、数据挖掘的分类
数据库的类型,包括关系数据库的数据挖掘、数据仓库的数据挖掘、面向对象的数据库挖掘、空间数据库的挖掘、正文数据库和多媒体数据
按知识类别分类的话,有关联、特征描述、分类分析、聚类分析、趋势、偏倚分析。
按知识抽象水平划分:一般文化知识、初级知识、多层知识。
3、数据挖掘常用技术
人工神经网络:一种仿生理神经网络结构的非线性预测模型,通过学习模式进行识别。
决策树:表示决策集的树结构。
遗传算法:基于进化理论,采用遗传结合、遗传变异和自然选择等设计方法的优化技术。
最近算法:对数据集中的各记录进行分类的方法。
规则推导:从统计意义上对数据进行规则检索推导。
4、数据挖掘和数据仓库的关系
数据挖掘的关键是通过访问准确、完整、集成的数据进行深入分析,以寻求有益的信息。 数据仓库是提供数据的来源,数据仓库在线分析功能OLAP为数据挖掘提供了良好的运营平台。 如果两者结合可以实现数据的有效结合,就可以为数据挖掘带来便利和功能。
5、数据挖掘技术的应用过程
挖掘对象的确定:必须明确定义挖掘对象,认识数据挖掘的目标。
数据准备:根据特定的挖掘对象,搜索与业务对象相关的所有内部和外部数据,然后选择适合数据挖掘APP应用的数据。 需要解决数据预处理,如数据清洗、冗余、缺失值、不一致、数据分组等问题。
模型创建:将数据转换为分析模型。 主要是为挖掘算法编写的。
数据挖掘:对转换后的数据进行数据挖掘通常由数据挖掘工具自动完成。
结果分析:对数据挖掘的结果进行说明和评价。 一般来说,决策的成败取决于数据挖掘操作的结果。
数据利用—数据挖掘的结果将得到业务决策者的认可和实际应用。