华为云张松:云+AI为教育赋能 用技术的方式给教育带来更新的体验
2019-11-29 19:10:55来源:搜狐科技编辑:居小桃
扫一扫
分享文章到微信
扫一扫
关注鹿财经网微信公众号
原标题:华为云张松:云+AI为教育赋能 用技术的方式给教育带来更新的体验
11月26日,由搜狐科技主办的“2019搜狐科技AI峰会”在北京举行,峰会旨在解读AI前沿新技术,探索行业新趋势。
在峰会下午的教育论坛上,华为云EI服务产品解决方案总经理张松作了题为《基于AI技术的多模口语测评探索》的主题演讲。
在峰会现场张松表示,华为公司的定位是科技公司,其主要的方向是做好AI芯片、做好AI计算、做好AI算法,给教育领域真正愿意做事情的伙伴赋能。
在演讲中,张松提到,华为在赋能教育领域的过程中也在反思一个问题,即数据的隐私的教育权的平衡。张松表示,他们有一个非常大的原则是,要在充分尊重K12目标对象(不管学生还是老师还是家长)的数据隐私前提下,回归教育本质,用技术的方式给教育带来更新的体验。从实操的角度,华为选择了英语口语的测评领域进行了相关实践。


以下为张松演讲的现场速记:
张松:非常荣幸能够代表华为公司来分享我们在教育领域的一些探索实践,跟前面几位演讲嘉宾略有不同的是,华为公司的定位是科技公司。我们主要的定位是做好我们的AI芯片、做好AI计算、做好AI算法,给教育领域真正愿意做事情的伙伴提供相关的技能和赋能。在下面的议题里面,我希望通过一个特别具体的应用场景给大家阐述华为怎样看待教育行业,怎么样跟我们的伙伴一起来去为教育领域做相关实践。
实际上,在教育(领域)已经看到越来越多人工智能应用的场景,有用计算机视觉的,用语音的,有自然语言,有智能客服机器人,包括运筹优化的算法等,这样一些技术已经在教育领域红红火火。不管针对教育环境,针对学习过程,对于教育的评测,对于老师的辅助,甚至对于整个智能教育的管理和服务体系的提升其实都是方方面面的应用。
在这样一个大的机遇下面,站在华为的角度,我们跟伙伴们探索中也在反思一个问题,我们面临一个巨大的挑战,就是数据的隐私和教育权的平衡。我们有一个非常大的原则,要在充分尊重K12目标对象不管学生还是老师还是家长的数据隐私前提下,回归教育本质,用技术的方式给我们的教育带来更新的体验。我们跟伙伴一起认为,在英语口语的评测领域,人工智能技术能够取得比较好的隐私和教育权的平衡。
之所以挑这个领域,我们看到在国内有极大的英语学习者,大概有4亿,他们有非常强烈的英语口语学习需求。第二,大批量的英语相关老师其实因为不是母语使用者,口语技能相对来说是偏弱的。第三,英语口语是需要长期自我反复练习的场景。第四,华为公司站在大企业的角度,希望通过这样的技术给我们国家的教育产业解决基础教育失衡的问题。
围绕这样的场景和命题,我们专门针对这样的场景联合伙伴进行了点对点的突破。在这个场景下面,识别了传统的用单纯的语音也就是单模口语评测的两个大的弊端:第一是通过语音只能相对笼统给你跟读的句子或者词打一个分数,但是单向的反馈并不能够非常准确地或者敏捷告诉你这句话里面的哪个单词哪个音素的打法或者韵律出现什么样的问题,反馈方式上来讲不能对一个学习者很好地做深度信息的反馈;第二个大的弊端,用声音做口语评测的时候,英语学习者通常不是在实验室环境里面做交互,在面对外部的嘈杂环境时,我们的单模口语评测通常来讲会产生非常大的评测误差,跟教育里面的飞轮效应产生非常负向的影响,越得不到正确的口语识别,越得不到正确的评测,越得不到细腻的纠错反馈,整个飞轮的比是向下迭代的。
针对单模的口语评测场景,我们探索用多模态的方式,引入视觉的技术、自然语言处理的技术。可以拆解一下,在评测录入环节除了去录传统的语音语料,也会录入母语者的口形录入,包括原始的例句录入。在评分反馈环节,单模通常对语速、流畅度也是从声音纬度做一个评分,我们在这个纬度会加入对于口形的识别,在纠正练习环节加强在错误部分的视频口形回放和视频对标,让口语练习者可以知道知道准确的评分是什么,准确评分打分的依据是什么,每个单词音节的音素发音不准,发音不准的音素是由于哪个发音部位造成的,同时会链接正确的母语发音者的口形,做反复的比对练习。
Demo里面做了以下的几个点,第一让用户根据不同的目标对象录入不同的语料,同时根据口语练习者在这个体系里面历史跟度的情况,匹配对应等级的口语跟度语料。频度过程中加入了视觉的技术,同时加入了语音语义的技术,可以很好地屏蔽噪音、准确评分。
同时在评分过程中可以看到,用同样的单模模型在噪音情况下打分大概会和非噪音情况下误差12分,给口语练习者一个不正确的反馈,用了多模的单语以后只会跟非噪音环境下有非常小的误差,确保拿到准确的分数。对受试者的口形发音比较低的部分可以把那个视频截出来,同时跟我们语料库里面原始的口语者进行比对。
Brass这个单词的读音拆成五个音素,最后一个发音是最低的,受试者点开那个音素其实是可以调出来库里面正确的拼读口音,同时可以看到自己的口形跟母语者口形的差异,通过这样的方式可以加强自己的练习。整个过程中引入多模技术,加强了识别部分的抗噪能力,加强了评测部分的准确率,同时再反馈和纠错时也提升了准确率。通过这样一个有效的闭环,正好可以叠加起飞轮效应,让英语口语的练习者得到非常积极的正向的反馈。
在整个体系里面华为公司有多种形式去对外输出我们的服务,我们可以把每个环节里面用到所有的API拆解出来,我们的合作伙伴、生态可以用这里面的API构建自己的应用场景。第二,可以整体去输出整个多模态口语评测的应用级输出,在这里面给我们的教育机构提供端到端的解决方案。除了Demo视频里面的应用场景,这项技术在碎片时间的学习、线上一对一的场景包括线下多人场景还有家庭伴读机器人场景都有非常广阔的应用。
通过刚才的演讲相信大家看到华为公司不仅站在科技的角度,更希望把这样的科技带给我们的伙伴,让伙伴在真正行业深耕落地的时候绽放出更美的光芒。
谢谢大家!
实际上,AI与各行各业的结合已经深入肌理,传统行业都在面临着前所未有的变革窗口期。借助AI实现企业的转型升级,已经从以往的锦上添花变成了如今迫在眉睫。AI将如何重塑行业,行业需求又如何倒逼AI技术的发展,成为了值得探讨的问题。
大会上午的主论坛共分为“AI重点相关技术”与“AI重点场景应用”两大板块,除了邀请中国工程院院士邬贺铨、搜狗公司CEO王小川、三星电子中国研究院院长张代君为我们解读AI发展的最新进展外,还邀请了来自IoT、零售、自动驾驶、金融、医疗五个领域的知名大咖来分享AI与行业的结合。而下午的分论坛则更为聚焦,深入探究AI如何改造零售、教育这两个关乎国计民生的行业。
投稿邮箱:lukejiwang@163.com 详情访问鹿财经网:http://www.lucaijing.com.cn
相关推荐