本章基于支持向量机,从样本稀疏性和特征稀疏性两个角度讨论了稀疏学习在处理大规模数据的发展现状。之后介绍了最优化问题和遗传算法的基本概念,为后续章节打下基础。
随着计算机技术的飞速发展,当今各种社会活动产生了海量的数据,互联网的应用实现了全球范围内的数据共享,论坛、博客、微博、社交网络等社会化媒体(Social Media)得到了迅猛发展,更导致了形形色色的数据的急增,人类进入了大数据时代。据不完全统计,目前全球企业的信息存储量为1.8~2.2ZB(1ZB=1021 bit)。美国把大数据称为“未来的新石油”,是数字化生存时代的新型战略资源,是驱动创新的重要因素,正在改变人类的生产和生活方式。大数据的特征可描述为四个“V”,即大容量(Volume)、多种类(Variety)、快速度(Velocity)和高价值(Value)。前三个“V”为数据的采集和预处理带来了很大的困难,第四个“V”意味着大数据是巨大的、低密度的,但具有内在的无形的高价值。为了寻求大数据巨大的商业价值,进行大数据挖掘是必要的。如何有效处理和利用大数据已成为人类社会所面临的越来越严峻的挑战,对数据相关科学问题的研究急切需要大力发展。为了实现在大数据中挖掘有效信息,需要信息科学、最优化、统计学以及计算机科学等协同研究;因为在处理大数据时,面临着如何存取、传输和计算如此大规模的数据,进一步如何从其中有效挖掘和解释数据等问题。
支持向量机(Support Vector Machines,SVM)作为通用的机器学习方法,具有坚实的统计学习理论(Statistical Learning Theory,SLT)基础,实际应用效果好,使用方便,模型参数较少,在图像、视频、声音、文本等具有大数据的不同领域得到了广泛的应用,国内外关于SVM的理论与应用的研究工作层出不穷[1-18]。与数据挖掘中的其他一些方法相比,SVM具有明显的优点:(1)具有坚实的理论基础:统计学习理论、最优化理论与核理论。其根据统计学习理论,把数据挖掘中的问题转化为最优化问题(例如线性规划问题或非线性规划问题),然后寻求高效的算法求解相应的最优化问题。(2)实际应用效果好,使用方便,模型参数较少,实际工作者易于掌握,可得到广泛的应用。近年来关于SVM的研究深入而广泛,出现了许多新的理论、算法和应用领域,其中双子SVM(Twin Support Vector Machines,TWSVM)就是最近几年SVM的研究热点之一[19-41]。与标准的SVM寻求两个平行的支持超平面不同,TWSVM寻求的是两个非平行的超平面,具有更好的灵活性,它构建的是两个规模更小的凸二次规划问题,其运算量小,推广能力强,因此受到了学术界的广泛重视,并成了SVM新的研究方向。然而目前以TWSVM为代表的非平行超平面分类器仍存在着诸多需要改进的方面与研究空白,还有着很大的研究空间。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。