KDD与数据挖掘
KDD(数据库中的知识发现)是计算机科学领域,其中包括帮助人类从大量数字化数据收集中提取有用和以前未知信息(即知识)的工具和理论。KDD由几个步骤组成,数据挖掘就是其中之一。数据挖掘是针对特定算法的应用,以便从数据中提取模式。尽管如此,KDD和数据挖掘仍可以互换使用。
什么是KDD?
如上所述,KDD是计算机科学领域,它涉及从原始数据中提取以前未知和有趣的信息。KDD是试图通过开发适当的方法或技术来理解数据的整个过程。该过程涉及将低水平数据映射到其他形式中,这些数据更紧凑,抽象和有用。这是通过创建简短报告,建模生成数据的过程和开发可以预测未来情况的预测模型来实现的。由于数据的指数增长,尤其是在诸如业务等领域,因此KDD已成为将大量数据转换为商业智能的非常重要的过程,因为在过去的几十年中,手动提取模式似乎已经变得不可能。例如,目前已用于各种应用程序,例如社交网络分析,欺诈,科学,投资,制造,电信,数据清洁,体育,信息检索以及主要用于营销。KDD通常用于回答诸如明年沃尔玛明年可能有助于获得高利润的主要产品?这个过程有多个步骤。它首先要了解应用程序域和目标,然后创建目标数据集。接下来是清洁,预处理,还原和投影数据。 Next step is using Data Mining (explained below) to identify pattern. Finally, discovered knowledge is consolidates by visualizing and/or interpreting.
什么是数据挖掘?
如上所述,数据挖掘只是整体KDD过程的一步。应用程序的目标定义了两个主要的数据挖掘目标,它们是验证或发现。验证是验证用户对数据的假设,而发现自动发现有趣的模式。有四个主要的数据挖掘任务:聚类,分类,回归和关联(摘要)。聚类正在从非结构化数据中识别类似的组。分类是可以应用于新数据的学习规则。回归正在发现模型数据的误差最小的函数。协会正在寻找变量之间的关系。然后,需要选择特定的数据挖掘算法。根据目标,可以选择不同的算法,例如线性回归,逻辑回归,决策树和幼稚的贝叶斯。 Then patterns of interest in one or more representational forms are searched. Finally, models are evaluated either using predictive accuracy or understandability.
KDD和数据挖掘有什么区别?
Although, the two terms KDD and Data Mining are heavily used interchangeably, they refer to two related yet slightly different concepts. KDD is the overall process of extracting knowledge from data while Data Mining is a step inside the KDD process, which deals with identifying patterns in data. In other words, Data Mining is only the application of a specific algorithm based on the overall goal of the KDD process.
留下一个回复