X为了获得更好的用户体验,请使用火狐、谷歌、360浏览器极速模式或IE8及以上版本的浏览器
关于我们 | 帮助中心
欢迎来到桂林科技成果交易平台,请 登录 | 注册
尊敬的 , 欢迎光临!  [会员中心]  [退出登录]
当前位置: 首页 >  科技成果  > 详细页

[00753829]可探测新颖类别的数据流分类技术

交易价格: 面议

所属行业:

类型: 非专利

交易方式: 资料待完善

联系人:

所在地:

服务承诺
产权明晰
资料保密
对所交付的所有资料进行保密
如实描述
|
收藏
|

技术详细介绍

课题来源与背景:数据流分类问题一直是数据流挖掘研究领域中的一个重要内容。 针对具有概念漂移的数据流分类问题已有不少研究,然而数据流不但包含已知类别间的演变(概念漂移),还包含已知类别到未知类别的演变(新颖类别)。因此,一个好的分类模型还应该具备对新颖类别的探测能力。研究目的与意义:新颖类别探测是一种重要的学习模式,其任务就是对那些与训练数据有较大差别的测试数据进行分类。国外已有不少关于新颖类别探测方面的研究,但国内这方面的研究还刚刚起步。新颖类别探测在现实生活不同领域中具有较广泛的应用。 比如,IT 安全、医疗诊断、工业监测、图像处理与视频监控、文本挖掘、传感器网络等等。该课题主要研究数据流上新颖类别的探测和分类技术,它是解决数据流概念演变导致出现的新颖类别问题的基础,同时也是解决数据流概念漂移问题的基础。高性能的可探测新颖类别的分类算法不仅可以增强算法的鲁棒性和可靠性,而且对数据流分类技术的应用具有现实意义。主要论点与论据:提出基于可变尺度滑动窗口的改进算法WCE-D。改进的算法WCE-D相对于已有的新颖类别探测框架采用的算法WCE引入了概念漂移检测机制,从而可以依据流数据的分布变化来判断概念漂移,并依据漂移状态决定是否学习和更新分类模型并调整窗口(数据块)大小。实验结果表明,在处理相同的数据流时,WCE-D算法的分类耗时更低,且具有和WCE近似的分类准确率。提出了改进聚类算法k-prototypes++。实验结果表明,k-prototypes++算法相对于k-means和k-prototypes算法的聚类效果更好,速度更快。使用数据流快速决策树算法VFDTc作为新的基分类器以提高数据流处理效率。实验结果表明,以VFDTc为基分类器的集成算法相对于以C4.5为基分类器的集成算法获得了较小的建模耗时和集成模型大小,且在处理相同的数据流时两种方法具有近似的分类准确率。创见与创新:针对已有的可探测新颖类别框架大多将数据流分成固定大小的数据块,以及频繁更新分类模型,导致分类准确率较低和处理速度较慢的问题,提出基于可变尺度滑动窗口的改进算法 WCE-D; 针对已有框架中采用的聚类算法随机选择初始中心点与不能处理混合属性,且均假定数据对象所有属性具有相同的权重不符合实际情况的问题,结合k-means++的初始中心点选择算法、混合属性的差异度度量标准和属性加权技术,提出了改进聚类算法 k-prototypes++和 w-kmeans++;采用改进的 WCE-D 算法作为分类算法框架以提高分类精度和分类速度,并采用改进的聚类算法 w-kmeans++来聚类探测新颖类别,以提高新颖类别探测精度,最终完整提出一种在概念漂移的数据流中可探测新颖类别的集成分类算法 DNCS。社会经济效益,存在的问题:研究工作还仅仅处于理论研究阶段,后续工作应考虑将新颖类别探测技术应用到实际环境中,比如图像处理、视频监控和文本挖掘等领域。历年获奖情况:公开发表论文5篇;EI收录2篇;参加“中国软件杯”大赛获奖1项。
课题来源与背景:数据流分类问题一直是数据流挖掘研究领域中的一个重要内容。 针对具有概念漂移的数据流分类问题已有不少研究,然而数据流不但包含已知类别间的演变(概念漂移),还包含已知类别到未知类别的演变(新颖类别)。因此,一个好的分类模型还应该具备对新颖类别的探测能力。研究目的与意义:新颖类别探测是一种重要的学习模式,其任务就是对那些与训练数据有较大差别的测试数据进行分类。国外已有不少关于新颖类别探测方面的研究,但国内这方面的研究还刚刚起步。新颖类别探测在现实生活不同领域中具有较广泛的应用。 比如,IT 安全、医疗诊断、工业监测、图像处理与视频监控、文本挖掘、传感器网络等等。该课题主要研究数据流上新颖类别的探测和分类技术,它是解决数据流概念演变导致出现的新颖类别问题的基础,同时也是解决数据流概念漂移问题的基础。高性能的可探测新颖类别的分类算法不仅可以增强算法的鲁棒性和可靠性,而且对数据流分类技术的应用具有现实意义。主要论点与论据:提出基于可变尺度滑动窗口的改进算法WCE-D。改进的算法WCE-D相对于已有的新颖类别探测框架采用的算法WCE引入了概念漂移检测机制,从而可以依据流数据的分布变化来判断概念漂移,并依据漂移状态决定是否学习和更新分类模型并调整窗口(数据块)大小。实验结果表明,在处理相同的数据流时,WCE-D算法的分类耗时更低,且具有和WCE近似的分类准确率。提出了改进聚类算法k-prototypes++。实验结果表明,k-prototypes++算法相对于k-means和k-prototypes算法的聚类效果更好,速度更快。使用数据流快速决策树算法VFDTc作为新的基分类器以提高数据流处理效率。实验结果表明,以VFDTc为基分类器的集成算法相对于以C4.5为基分类器的集成算法获得了较小的建模耗时和集成模型大小,且在处理相同的数据流时两种方法具有近似的分类准确率。创见与创新:针对已有的可探测新颖类别框架大多将数据流分成固定大小的数据块,以及频繁更新分类模型,导致分类准确率较低和处理速度较慢的问题,提出基于可变尺度滑动窗口的改进算法 WCE-D; 针对已有框架中采用的聚类算法随机选择初始中心点与不能处理混合属性,且均假定数据对象所有属性具有相同的权重不符合实际情况的问题,结合k-means++的初始中心点选择算法、混合属性的差异度度量标准和属性加权技术,提出了改进聚类算法 k-prototypes++和 w-kmeans++;采用改进的 WCE-D 算法作为分类算法框架以提高分类精度和分类速度,并采用改进的聚类算法 w-kmeans++来聚类探测新颖类别,以提高新颖类别探测精度,最终完整提出一种在概念漂移的数据流中可探测新颖类别的集成分类算法 DNCS。社会经济效益,存在的问题:研究工作还仅仅处于理论研究阶段,后续工作应考虑将新颖类别探测技术应用到实际环境中,比如图像处理、视频监控和文本挖掘等领域。历年获奖情况:公开发表论文5篇;EI收录2篇;参加“中国软件杯”大赛获奖1项。

推荐服务:

Copyright © 2017  桂林经济技术开发区管理委员会    桂林经开孵化器管理有限责任公司    All Rights Reserved

桂ICP备17003866号-1

运营商:科易网