中国投资研究网

用户名:

密 码:

010-80782106 15611620612

可行性研究报告

技术百科

更多>>

数据挖掘技术在教育行业中的应用

2013-09-13 16:13:48 来源:中国投资研究网 【字体: 【收藏本页】【打印】【关闭】

更多

核心提示:21世纪是一个信息化发展速度较快的新时代,实现对海量数据信息的有效处理,对当前教育行业来说,是一个比较严峻的问题。


关键词: 数据挖掘

  21世纪是一个信息化发展速度较快的新时代,实现对海量数据信息的有效处理,对当前教育行业来说,是一个比较严峻的问题。一般来讲,各种各样的信息都被包含在海量数据中,如果还是依靠个人的经验或者直觉发现各个信息,相对来说比较艰难。再加上现阶段的教育行业中,数据库的管理系统普遍存在,相关技术人员所掌握的各项功能只能对现有的数据库进行统计、查询以及存储,最终的结果只是数据库中一小部分的数据量。因此如何将所提取的知识获得更高的利用价值,并在利用新的技术对海量原始数据进行快速、智能、全面的分析的基础之上,实现对提取数据的充分利用已经成为当前教育行业进一步发展过程中所急需解决的新课题。

  一、数据挖掘技术及其在教育行业中的应用

  随着我国经济的发展,以及信息化时代的到来,教育行业中的数据库储存信息量也越来越大,这就促成了海量数据的产生。为了能给相关技术操作人员将各类数据进行统一,在计算机网络的各个领域都建立了对应的数据库,但是往往海量数据中隐藏的有用的信息都不能第一时间被决策者找出来,一些传统的技术操作步骤更不能使其得到满足。所以说,在当前教育行业的发展过程中需要一种新的方法,将海量数据进行相应的分析和处理,从而将其潜在的有利信息挖掘出来。而这种技术方法我们称之为数据挖掘。以可视化、数理统计、人工智能以及数据库作为数据挖掘的基础步骤,数据挖掘技术在很多技术领域上都有不同的分类方法,简单来说,算法设计大致由三个部分组成:输入、输出以及处理。挖掘方法简单分为数据库方法、神经网络方法、机器学习方法以及统计方法;在数据源与数据库中,因其包含的种类各不相同,所以数据挖掘技术针对的对象也有了不同定义。其中我们可以将挖掘方法中的各项分析方法进行细分归类,其中数据库分析法以多位数据分析方法为最关键步骤;神经网络方法可以分为向前以及自组织神经网络;机器学习方法最主要的就是遗传算法;统计方法分为回归与辨别分析等等。其中,数据挖掘技术也存在着广义与狭义的区别,广义的一面就是指在海量数据中将其内在的或者隐藏的一些有用的信息或者知识得以发现的过程;在信息或者知识得以发现中存在的最关键步骤我们称之为狭义的一面,它在建立数据模型以及抽取有力知识的环节中占重要位置。以深刻全面地认识所搜集到的数据库为基础,将数据本质以及内在进行抽象概括,这对数据的认识过程的升华起关键作用。

  1、技术简介

  数据挖掘技术无论在分类方法还是在操作技术上,都有不同的分工,其各自之间也包含了不同的新特征:其中较为明显的就是数据挖掘技术针对的对象就是大量的数据,并且这些数据有可能是随机的、有噪声的或者不完整的;各项学科相互交叉形成数据挖掘,它将统计与计算机学科中的相关技术得以合理运用。数据挖掘技术所算出的最终结果的好坏对所发现的知识的好坏有直接影响,就目前来说,数据挖掘的研究对象主要是针对于应用以及在各项技术的算法方面,针对以下几个常用的数据挖掘技术进行综合分析:

  (1)统计技术。数据挖掘所包含的技术以及涉及的领域相对较多,虽说该项学科在教育行业发展过程中,有着“悠久”的发展历史,但它在各项数据挖掘技术中可以称得上是最基本的一项技术,统计分析以概率论和统计学的原理为理论基础,该方法建立在以模型为基础的技术分析方法,其中包括判别分析、因子分析以及回归分析等,其优点就是对所分析的结果描述得比较精确,同时也比较容易理解。在实际的运用中,统计技术被利用的较为普遍,其核心思想就是在集合给定的数据上,统计方法假设了一个正态分布,其次就是对各项数据挖掘技术进行分析研究时应采用和模型相对应的技术。

  (2)决策树。决策树在数据挖掘技术中其各项操作步骤都存在不同的特征,其遵循的原则就是集合决策和分类后产生的规则。在一般情况下,决策树技术分析法产生的规则比较容易理解且直观,在计算分类时耗费的时间也不算太多,在预测结果以及记录分类时比较适用,当分析目标生成自然语言、可翻译成SQL规则时更为适用。决策树技术分析法一般常用的计算方法有C4.5、C5.0、ID3、CHAID、CART等。

  (3)关联分析。数据挖掘技术中被技术操作员运用较多的就是关联分析技术,它是将海量数据集中管理,并将其中关联性以及依赖性较强的信息知识挖掘出来。在一般的数据关联分析中,货篮分析是较为常见的技术形式,度量的属性值分别有置信度和支持度,两者并相互结合成一个整体框架。在数量较多的关系数据或者食物数据中,关联分析能将一些潜在的知识以及人们感兴趣的模式挖掘出来,其中在通讯、保险和零售业中被利用得较为广泛。

  (4)神经网络。神经网络类似于人类大脑局部的神经元,其功能也与之相似,它是由神经生物学家和心理学家在很久以前被提出来的,它的重点就是测试神经以及寻求开发的计算模拟。以进行重复的学习为基本原则,首先在样本上先给出先例,其次再进行训练和学习,这样才能在各种样品之间产生不同的模式和特征。神经网络数据挖掘技术在知识理解上比较困难,在最终显示的结果上无法得到合理的解释,且它在训练时间上浪费的时间较多,不仅参数需要的较多,解释起来也比较不易。但是,该项技术方法也有几项优点:承受噪声数据的能力较高;能很好地对一些复杂的问题进行预测等等。

  (5)粗糙集。在1982年一位波兰的教授将粗糙集数据挖掘技术提出来,它在数学工具上是一种全新的技术方法,粗糙集在数据挖掘技术中的作用也较为显著,一般在一些不确定性或者比较含糊的问题上能将其得以合理的解决,能将简单的噪声数据以及不准确数据中相互存在的联系发现出来。在一般的数学模式上可以将粗糙集的概念逐渐含糊化,它最大的优点就是不用将附加的信息和初始的数据关联在内,所以在一些获取不完整或者不确定的信息上被广泛地运用。可以说粗糙集数据挖掘技术的出现,使知识发现以及数据挖掘的效率得到了很大地提高。

  (6)遗传算法。在以组合一些生物进化过程为基础的范围上,遗传算法是一种比较优化的方法,它将计算机科学和生物学紧密相结合,在1975年,最早由美国的D.J.Holland教授提出,它们遵循的最基本原则就是适者生存,将大自然中的各类生物进化机制进行模拟操作,最终形成一个在规则组成中最适合的一个群体。以这种应用思想为基础,在建造最合适的模型中遵循遗传算法的原则,对各项数据模型适时的进行优化操作。但是遗传算法相比其他技术方法显得较为薄弱,且对所需要的信息要求也相对较少,所以有比较明显的灵活性和高效性等特点。

  2、应用领域

  随着我国教育行业的不断发展,在数据挖掘研究领域也有了深入发展,而今的数据挖掘相关处理技术已经趋于成熟,它所被应用的领域也越来越大。它在促进我国教育行业不断发展的同时,也在电信、医疗、零售业、金融等行业得到广泛地应用和发展。此外这项技术在应用过程中,将数据挖掘技术的特点以及存在的问题很好地展现出来,这就使得在未来发展过程中,能够将数据挖掘技术的优势充分发挥出来,也能使得数据挖掘的盲目性减少。

  二、应用研究

  总的来说,数据挖掘技术能将海量数据库中隐藏的价值较高的信息发现出来,并得以充分利用。它不仅能够使得教育企业在竞争中取得较为明显的优势,同时也在缩短产品周期的基础之上降低了产品成本。而在信息资源开发这方面,数据挖掘技术也有着明显的优势,所以在市场营销、制造业、科学研究行业都被广泛地利用。

  1、制造业。零部件在生产的过程中出现的故障,利用数据挖掘技术对其进行详细的分析,及时地将对生产效率产生一定影响的方方面面发现出来,发现产生故障的原因,及时进行纠正,对于一些分布不正常的数据也能及时发现,这样才能协助工程师采取正确的措施进行改进。

  2、市场营销。在市场营销领域上,数据挖掘技术被利用地较为频繁,同时在该领域中数据挖掘技术可分为两种类型:货篮分析以及市场营销数据库。前者用来分析营销的数据,后者则利用自身的技术方法向顾客推销自己的产品。就目前来说,无论是在保险业或者电信业、信用卡业以及零售业上,数据挖掘技术都得被广泛运用,合理运用该项技术不仅能提高商家的信誉,也能及时地发现潜在客户。

  3、科学研究。实验人员在进行科学研究的同时,需要通过观测数据以及大量的实验来分析各种数据,传统的技术分析方法已经不能适应现代的需求,所以对于一些功能相对强大的智能分析工具的需求较为强大,正因为该项需求推动了数据挖掘技术的发展。在生物学研究领域,实验人员利用其相似检索技术和序列模式对DNA数据进行分析,在对识别同一时间出现的基因序列进行分析时采用关联分析识别方法,能及时地发现各个阶段产生疾病的原因。

  三、结语

  数据挖掘技术的发展不仅为我国的教育行业带来巨大的经济效益,更为社会大众提供了便捷的服务,因此这就要求我们一定要切实做好对数据挖掘技术的应用研究工作。


相关资讯