数据挖掘(Data Mining )技术是人们长期研究和开发数据库技术的结果。 最初,各种业务数据存储在计算机的数据库中,然后可以查询和访问数据库,发展到了对数据库的即时遍历。 通过数据挖掘,数据库技术进入了更高级的阶段,不仅可以调查和调查过去的数据,还可以发现过去数据之间的潜在联系,促进信息的传播。 现在数据挖掘技术在商业APP应用中很快就可以使用了。 因为支持该技术的三项基础技术已经成熟,它们是大量的数据收集、强大的多处理器计算机和数据挖掘算法。
从技术角度看,数据挖掘是从大量、不完整、有噪声、模糊、随机的实用数据中提取隐藏在其中的、人们事先不知道但潜在有用的信息和知识的过程。 这个定义包含了几个意思。 数据源必须真实、大量、含有噪声。 发现的是用户感兴趣的知识。发现的知识可以被接受、理解、利用,不要求发现普遍准确的知识,只支持特定的发现问题。
还有许多与该术语相近的术语,如从数据库中发现知识、数据分析、数据集成(Data Fusion )和决策支持。
什么是知识? 从广义上讲,数据、信息也是知识的表现形式,但把概念、规则、模式、规则、制约等视为知识。 原始数据(如关系数据库中的数据)可以结构化;也可以半结构化,如文本、图形和图像数据; 甚至是分布在网络上的异构数据。 拿出来
现在的知识方法可以是数学的,也可以是非数学的; 可以是演绎的,也可以是归纳的。 发现的知识可以用于信息管理、查询优化、决策支持和过程控制等,也可以用于数据本身的维护。 因此,数据挖掘是一门交叉学科,它将人们在数据中的应用从低级简单查询中提取知识,提供决策支持。 在这种需求的带动下,不同领域的研究者,特别是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等领域的学者和工程技术人员齐聚一堂,投身于数据挖掘这一新的研究领域,形成了新的技术热点。
从业务角度看,数据挖掘是一种新兴的业务信息处理技术,其主要特点是提取、转换、分析和其他建模处理业务数据库中的大量业务数据,并从中提取支持业务决策的关键数据
简而言之,数据挖掘其实是一种深层次的数据分析方法。 数据分析本身已有多年的历史,但过去数据收集和分析的目的用于科学研究,而且由于当时计算能力的限制,分析大量数据的复杂数据分析方法受到很大限制。 现在,由于各行业的业务自动化的实现,业务领域产生了大量的业务数据。 这些数据不是为了分析而收集的,而是通过纯粹的机会业务运营产生的。 分析这些数据也不仅仅是为了研究的需要,主要是为业务决策提供真正有价值的信息并从中获益。 但是,所有企业面临的一个共同问题是,企业的数据量非常大,其中真正有价值的信息很少,所以要从大量的数据中通过深层分析,得到有利于业务运营、提高竞争力的信息。 就像从矿石中提取淘金一样,数据挖掘也因此而得名。
因此,数据挖掘可以描述为基于企业制定的业务目标,搜索、分析大量企业数据,揭示隐藏的、未知的或已知的规律性,并对其进行建模的先进有效的方法。
数据挖掘与传统数据分析(如查询、报告和在线APP应用分析)的本质区别在于在没有明确假设的情况下挖掘信息和发现知识。 数据挖掘得到的信息必须具有先知、有效性和实用性三个特点。
以前未知的信息是指该信息事先没有预料到。 也就是说,数据挖掘是发现直觉无法发现的信息和知识,甚至与直觉相反的信息和知识,发现的信息越是意想不到,就越有价值。 商业APP应用中最典型的例子是,一家连锁店通过数据挖掘发现儿童纸尿裤和啤酒之间存在着惊人的联系。
特别注意,数据挖掘技术从一开始就以APP应用为导向。 不仅是针对特定数据库的简单搜索查询调用,还试图对这些数据进行微观、中观乃至宏的统计、分析、综合、推理,指导实际问题的解决,发现事件之间的相互关系,并利用现有数据预测未来的活动例如,加拿大BC省电话公司要求加拿大Simon Fraser大学知识发现研究组根据10多年的客户数据,总结、分析和提出新的电话费和管理方法,制定有利于公司和客户双方的优惠政策。 这样,将人们在数据中的应用,从低级的基层查询操作提高到向各级经营决策者提供决策支持。 这种需求比数据库查询更强大。