X为了获得更好的用户体验,请使用火狐、谷歌、360浏览器极速模式或IE8及以上版本的浏览器
关于我们 | 帮助中心
欢迎来到桂林科技成果交易平台,请 登录 | 注册
尊敬的 , 欢迎光临!  [会员中心]  [退出登录]
当前位置: 首页 >  科技成果  > 详细页

[01648538]跨媒体语义映射与智能检索关键技术研究

交易价格: 面议

所属行业:

类型: 非专利

交易方式: 资料待完善

联系人:

所在地:

服务承诺
产权明晰
资料保密
对所交付的所有资料进行保密
如实描述
|
收藏
|

技术详细介绍

传统信息检索技术主要面向文本,目前互联网上广泛使用的Google、Yahoo!等搜索引擎都主要采用文本检索技术,即使搜索对象是图像、视频、音频等多媒体数据,也通常利用一组关键字或词组成的查询项进行搜索。然而,人类的视觉和听觉感知是对图像、视频、音频和文本等多媒体信息的综合处理,因此人类感知客观世界的过程本身就具有“跨媒体”的特性。所以,对多媒体数据的语义理解和智能检索也迫切需要具备“跨媒体”特性,也就是说,能够以某一种或多种媒体表达方式描述的用户查询,与在不同类型媒体表达方式描述的媒体信息之间进行查找和相关匹配,从单一媒体检索延伸到跨越不同类型多媒体数据的综合检索。 目前,跨媒体信息在经济、教育和社会安全等领域扮演着重要角色,但由于计算机的识别感知能力远逊于人类,所以其处理效率还远不能满足社会发展的需求。借鉴人类的认知机理,以机器学习的理论、模型和算法为基础,大幅度提高计算机对跨媒体数据的理解和处理能力,不仅能有力地推动信息科学的快速发展,也必将为国民经济和社会发展做出重大贡献。在理论上,研究跨媒体数据的语义映射和智能检索将促进探索视听觉认知机理,构建新的计算模型与计算方法,提高计算机对非结构化信息的理解能力和海量异构信息的处理效率,为人工智能和认知科学的发展作贡献。研究复杂媒体数据及其检索机制,对于缩减语义鸿沟,克服图像、语音和文本(语言)信息处理所面临的瓶颈困难等问题意义重大。此外,构建跨媒体搜索引擎具有重要的应用前景,跨媒体搜索引擎能够在视频会议、数字图书馆、医学诊断和社交网络等方面实现多媒体资源的共享和结构化存储,也将为确保国家安全和公共安全、推动信息服务和相关产业发展、以及提高国民生活水平等做出重要贡献。 本项目的研究从人类感知的角度出发,结合多种机器学习算法构建跨媒体语义映射模型,在多层次语义空间下实现跨媒体的语义检索,具有良好的创新性和系统性。总体上看,本项目的特色与创新之处可概括如下: (1) 在有效编码理论的指导下,研究新的多媒体特征融合和特征选择算法。依据媒体各自的特点使用“词袋”或“特征袋”模型对多种特征进行融合分析,基于深度神经网络构建跨媒体特征学习模型; (2) 针对跨媒体语义映射的难点,深入研究多种快速有效的机器学习算法,结合多种学习技术构建语义映射模型,将多媒体表示从异构的低层特征空间分别映射到一致的隐式和显式语义空间; (3) 根据跨媒体语义映射获取的隐式和显式语义表示,结合粒度空间模型进行语义分析,研究多层次多粒度语义描述模型,从而能够全方位地获取更精确的语义信息,为提高跨媒体检索的性能奠定基础。 在本项目的支持下,项目组人员积极开展相应的研究工作,取得了一系列研究成果。依托本项目发表(录用)学术论文65篇,其中SCI收录19篇,EI收录的期刊论文54篇。获发明专利授权2项,受理12项,获软件著作权5项。项目所取得的研究成果主要体现在图像自动标注、图像描述生成、图像目标检测和语义分割、跨媒体图文检索、自然语言处理与理解等几个方面。项目的研究促进了视听觉认知机理的探索,推动了海量异构信息的组织、查找与分析技术的发展,具备重要的科学意义和应用前景。
传统信息检索技术主要面向文本,目前互联网上广泛使用的Google、Yahoo!等搜索引擎都主要采用文本检索技术,即使搜索对象是图像、视频、音频等多媒体数据,也通常利用一组关键字或词组成的查询项进行搜索。然而,人类的视觉和听觉感知是对图像、视频、音频和文本等多媒体信息的综合处理,因此人类感知客观世界的过程本身就具有“跨媒体”的特性。所以,对多媒体数据的语义理解和智能检索也迫切需要具备“跨媒体”特性,也就是说,能够以某一种或多种媒体表达方式描述的用户查询,与在不同类型媒体表达方式描述的媒体信息之间进行查找和相关匹配,从单一媒体检索延伸到跨越不同类型多媒体数据的综合检索。 目前,跨媒体信息在经济、教育和社会安全等领域扮演着重要角色,但由于计算机的识别感知能力远逊于人类,所以其处理效率还远不能满足社会发展的需求。借鉴人类的认知机理,以机器学习的理论、模型和算法为基础,大幅度提高计算机对跨媒体数据的理解和处理能力,不仅能有力地推动信息科学的快速发展,也必将为国民经济和社会发展做出重大贡献。在理论上,研究跨媒体数据的语义映射和智能检索将促进探索视听觉认知机理,构建新的计算模型与计算方法,提高计算机对非结构化信息的理解能力和海量异构信息的处理效率,为人工智能和认知科学的发展作贡献。研究复杂媒体数据及其检索机制,对于缩减语义鸿沟,克服图像、语音和文本(语言)信息处理所面临的瓶颈困难等问题意义重大。此外,构建跨媒体搜索引擎具有重要的应用前景,跨媒体搜索引擎能够在视频会议、数字图书馆、医学诊断和社交网络等方面实现多媒体资源的共享和结构化存储,也将为确保国家安全和公共安全、推动信息服务和相关产业发展、以及提高国民生活水平等做出重要贡献。 本项目的研究从人类感知的角度出发,结合多种机器学习算法构建跨媒体语义映射模型,在多层次语义空间下实现跨媒体的语义检索,具有良好的创新性和系统性。总体上看,本项目的特色与创新之处可概括如下: (1) 在有效编码理论的指导下,研究新的多媒体特征融合和特征选择算法。依据媒体各自的特点使用“词袋”或“特征袋”模型对多种特征进行融合分析,基于深度神经网络构建跨媒体特征学习模型; (2) 针对跨媒体语义映射的难点,深入研究多种快速有效的机器学习算法,结合多种学习技术构建语义映射模型,将多媒体表示从异构的低层特征空间分别映射到一致的隐式和显式语义空间; (3) 根据跨媒体语义映射获取的隐式和显式语义表示,结合粒度空间模型进行语义分析,研究多层次多粒度语义描述模型,从而能够全方位地获取更精确的语义信息,为提高跨媒体检索的性能奠定基础。 在本项目的支持下,项目组人员积极开展相应的研究工作,取得了一系列研究成果。依托本项目发表(录用)学术论文65篇,其中SCI收录19篇,EI收录的期刊论文54篇。获发明专利授权2项,受理12项,获软件著作权5项。项目所取得的研究成果主要体现在图像自动标注、图像描述生成、图像目标检测和语义分割、跨媒体图文检索、自然语言处理与理解等几个方面。项目的研究促进了视听觉认知机理的探索,推动了海量异构信息的组织、查找与分析技术的发展,具备重要的科学意义和应用前景。

推荐服务:

Copyright © 2017  桂林经济技术开发区管理委员会    桂林经开孵化器管理有限责任公司    All Rights Reserved

桂ICP备17003866号-1

运营商:科易网