找回密码
 立即注册

QQ登录

只需一步,快速开始

扫一扫,访问微社区

只需一步,快速开始

对话微软小冰三大首席科学家:用抖音神曲训练AI,机器作曲潜力大

查看: 5339| 评论: 1| 发布者: 潍溦

??? ??С
简介:智东西(公众号:zhidxcom)文 | Lina智东西11月21日消息,今天,微软小冰首席科学家宋睿华、首席NLP科学家武威、首席语音科学家栾剑在微软总部的小型媒体交流会上,介绍了微软小冰今年在自然语言处理、语音学研究、 ...

对话微软小冰三大首席科学家:用抖音神曲训练AI,机器作曲潜力大

智东西(公众号:zhidxcom)
文 | Lina

智东西11月21日消息,今天,微软小冰首席科学家宋睿华、首席NLP科学家武威、首席语音科学家栾剑在微软总部的小型媒体交流会上,介绍了微软小冰今年在自然语言处理、语音学研究、多模态生成等领域研究进展。

对话微软小冰三大首席科学家:用抖音神曲训练AI,机器作曲潜力大

▲从左到右:微软小冰首席NLP科学家武威、首席语音科学家栾剑、首席科学家宋睿华

在会后的采访中,栾剑告诉智东西,在AI编曲方面,小冰将寻找更多数据,生成更多的模式和风格。比如小冰可以从“抖音神曲”中挖掘现在流行的音乐风格,生成更好的音乐。

一、AI学会北极熊怎么“蹑手蹑脚”


据微软小冰首席科学家宋睿华介绍,最近几年,微软小冰团队在各大国际会议上发表了48篇论文/文章、获得了包括全双工AI技术在内的72项专利。

当前小冰已经在搭载在4.5亿台第三方智能设备,平均对话轮数(CPS)达到23轮。

宋睿华分享了小冰在比喻、联想方面的进展,以及如何让小冰像人一样能将故事理解成画面。

对话微软小冰三大首席科学家:用抖音神曲训练AI,机器作曲潜力大

▲小冰通过联想连接词等方式生成的比喻句

此外,小冰像人一样能将故事理解成画面的能力涉及当前很火的“跨模态理解”技术。

比如在语言方面,当人类阅读一段北极熊捕猎海豹的文字时,脑海中将会主动浮现相应的场景。

对话微软小冰三大首席科学家:用抖音神曲训练AI,机器作曲潜力大

而且,虽然文字段落里完全没有提到北极熊是白色的、周围冰天雪地的世界是白色的,但是人类可以通过常识补充这种缺失的信息。

宋睿华告诉智东西,当前,AI在常识领域依旧存在缺失,因为人类不会把习以为常的东西写进文字里,比如人类不会专门说“我今天用两条腿走路”。对于AI常识补充方面,孕育了不少可挖掘的东西。

同时,人类可能没有见过北极熊“蹑手蹑脚”的样子,但可以把自己家里面猫蹑手蹑脚的样子进行代入。通过向人类学习,小冰也可以调动出以前的经验,模拟出当前的场景,像人一样能将故事理解成画面。

对话微软小冰三大首席科学家:用抖音神曲训练AI,机器作曲潜力大

▲小冰对“画饼充饥”故事的图像理解

宋睿华告诉智东西,在未来一两年里,微软小冰将继续往多模态方向发展,未来小冰如果有一个具体的形象,变成有摄像头(有眼睛)、有麦克风(有耳朵),这种多模态AI技术将会是未来的发展重点。

二、从简单回复到信息增量


微软小冰首席NLP科学家武威今天分享的主题是《朝向自我完备的对话机器人(Towards a Self-Complete Chatbot)》。

武威说,“自我完备(Self-Complete)”是团队内部自己“造”的词,但是它能够最好地概括小冰过去几年的成果。

对于对话机器人来说,“自我完备”主要指的是具备以下几大能力:

对话微软小冰三大首席科学家:用抖音神曲训练AI,机器作曲潜力大

1、具备学习能力(初级能力包括从人类对话进行中学习;高级能力包括从其他对话机器人中学习)

2、具备对话的自我管理能力(初级能力包括能够知道自己在单轮对话中需要表达的内容、高级能力包括有能力把握整个对话流程)

3、具备知识联通能力(能够连接世界上多项多模态知识)

以从人类对话中进行学习来举例,通过小冰团队打造的生成模型(Generation Models)小冰与人类的对话可以从单独进展到多轮、从简单回复进展到具备信息增量的内容等等。

对话微软小冰三大首席科学家:用抖音神曲训练AI,机器作曲潜力大

上图是三种不同模型针对同一对话给出的不同回复,当人类给出“我的皮肤好干”对话时,SSA模型给出的回复是“啊啊啊啊”,S2SA-MMI模型给出的回复是“我也是啊”,微软的TA-Seq2Seq模型给出的回复是“那就补水保湿吧”——“补水保湿“就是一个明显的信息增量内容。

武威说,这项研究虽然研究时间不长,但是发展得非常快。

此外,当前,全双工多轮对话等技术在AI语音交互领域非常火,在过去几个月之内,百度、阿里、小米等都陆续发布了相关的新品。

武威告诉智东西,微软小冰很早就推出了相关功能,而且小冰的多轮对话能力不仅仅是让小冰把上下文理解得更准确、给出更准确的回复,更重要的是小冰会把控整个对话流程、进行有来有往的对话引导。因为人类的交流过程不是一个简单的问答模式,而是有目的、有情商的交流。

三、AI唱歌的难点:清唱数据缺乏


微软小冰首席语音科学家栾剑分享了微软小冰在AI唱歌方面的进展。

栾剑说,微软小冰做唱歌技术的原因有三点:1、AI唱歌比AI说话的技术门槛更高;2、唱歌的情感表达更丰富、更激烈;3、唱歌是一个非常重要的娱乐方式。

对话微软小冰三大首席科学家:用抖音神曲训练AI,机器作曲潜力大

而唱歌的三大要素则包括吐字发音、节拍、旋律。这三大要素将通过两种方式输入机器,第一种是通过已有音频输入、第二种则是通过曲谱输入。

栾剑说,对于AI唱歌来说,由于清唱数据严重缺乏,必须利用大量混合伴奏音轨的数据进行训练。

对话微软小冰三大首席科学家:用抖音神曲训练AI,机器作曲潜力大

针对这一难点,微软小冰团队通过人声部分检测、音素时刻对齐、音高轨迹提取等方式,通过模型+数据的结合,才能成功打造出会唱歌的小冰。

不过,栾剑对智东西强调:微软小冰的语音合成技术现在暂时只会对企业开放,不对个人开放,因为这一技术对用户隐私、AI欺诈等方面存在着很高的风险。

四、落地线上零售,用抖音神曲训练AI


虽然这场分享会以技术进展为主,但微软小冰的研发大咖们也分享了一些微软小冰在落地方面的进展。

比如在线上零售方面,目前,小冰团队已经在日本、美国落地了相应的技术,AI将通过几个简单的问题,迅速判断出用户的购物需求。

对话微软小冰三大首席科学家:用抖音神曲训练AI,机器作曲潜力大

比如当用户提出需要购买一份毕业礼物时,AI通过10轮以内的对话陆续挖掘出用户送礼对象的兴趣爱好,最后推荐一份合适的礼物(比如书、相机、咖啡等)。

据武威介绍,这一系统当前用户点击的推荐转化率高达68%。

同时,宋睿华表示,在AI对音乐、文字、图画等创作方面,音乐是一个非常大的市场。因为人类对音乐的消费需求是很大的,但是真正能写歌的人很少。

栾剑表示,现在微软小冰的技术既可以帮助企业定制虚拟歌手、又可以为用户提供音乐工具与平台,让用户更方便地创造自己的歌曲。

在AI作曲的优化方面,栾剑再次强调,数据+模型非常重要。一方面,小冰将寻找更多数据,生成更多的模式和风格。比如小冰可以从“抖音神曲”中挖掘现在流行的音乐风格,生成更好的音乐。

另一方面,在数据不足的时候,可以用专家模式抽取规则,把规则和算法模型更有机地结合。

【免责声明】本文仅代表作者或发布者个人观点,不代表SEO研究协会网(www.seoxiehui.cn)及其所属公司官方发声,对文章观点有疑义请先联系作者或发布者本人修改,若内容涉及侵权或违法信息,请先联系发布者或作者删除,若需我们协助请联系平台管理员,邮箱cxb5918@163.com(本平台不支持其他投诉反馈渠道,谢谢合作)。若需要学习以上相关知识请到巨推学院观看视频教程,网址www.jutuiedu.com。

鸡蛋

鲜花

握手

雷人

路过
已有 1 人参与

会员评论

  • 游客 2019-11-30 12:37 引用
    影视卡平台诚招代理 公众号吸粉引流系统 店铺引流 全能影视系统、视频打赏系统搭建,加微信:571832434 回复1
推荐阅读

    2020-01-25 21:42
  • 作者:killer6472

    12月抖音黑马榜 | 104位达人涨粉超百万,李子柒狂揽400万粉丝

    2019年的最后一个月,抖音达人的涨粉迎来“大爆发”。短视频工场与星榜继续联合发布《12月抖音黑马榜》,据数据显示,12月共有104位达人涨粉超百万,其中最高涨粉为522万,由“中国长安网”夺得。他们的账号有着怎样

  • 2020-01-25 21:14
  • 作者:苔筑

    啥是信息流?

    最近都在说信息流,啥是信息流?信息流有广义和狭义两种。广义指在空间和时间上向同一方向运动过程中的一组信息,它们有共同的信息源和信息的接收者,即由一个信息源向另一个单位传递的全部信息的集合。狭义指信息的

  • 2020-01-25 20:56
  • 作者:子夜

    小红书能否破解商业化“谜局”

    小红书商业化之路正呈现冰火两重天的局面。近日,小红书陆续关闭了在上海的所有线下体验店小红书之家,宣告其在2018年尝试的实体店路线走到了尽头。小红书在线下碰壁时,线上的内容变现却动作频频,先是将品牌号升级

  • 2020-01-25 20:41
  • 作者:李学朋

    手机死机关不了机怎么办

    在我们平时使用手机的过程中,难免会遇到死机的情况。为什么会死机卡住呢? 这时因为有的软件与系统的兼容性不好,或是系统的运行不稳定导致的。一旦死机卡住了的话,不管我们怎么点击屏幕,手机都不给任何反应。下面

  • 2020-01-25 19:24
  • 作者:球球

    什么是微信直播?微信直播可以带货吗?有播微信直播是什么?

    今天小编要跟大家聊关于微信直播的问题很多,5G时代已经来临,不光是网速变快,更多的是商业应用,接下来我从下面几个问题跟大家聊一聊微信直播。需要咨询更多微信资讯可添加W13388604546一、什么是微信直播?是指?

  • 2020-01-25 19:14
  • 作者:炫奇

    如何轻松做百度文库推广引流

    本文裂变哥主要介绍六种百度文库推广的技巧,拿起你的小本本记笔记吧!那么什么是文库推广?简单来讲,文库推广就是利用文库向潜在用户展现信息、品牌布局、长尾词排名的推广方式。目前市场上的文库有很多,但要说市

  • 2020-01-25 19:11
  • 作者:seoere

    10亿红包撒出去了,快手能留住什么?

    春晚直播期间,快手发出10亿元现金红包,全球观众参与红包互动累计次数达到639亿,创造春晚史上最大的视频点赞纪录。作者| 张吉龙 编辑| 罗丽娟随着1月25日凌晨的钟声,2020年春晚落幕,一年一度的春晚红包大戏也迎

  • 2020-01-25 19:06
  • 作者:uuguigu

    百度文库赚钱项目!双模式玩法带你月入8000+

    那今天我们带来的项目就比较适合大部分的朋友来操作了,你可以作为兼职来做,当然如果你有时间也可以全职操作。这个项目就是百度文库的玩法。项目就是知识付费项目,只是百度文库相对于其他的平台有其自己的规则,让

  • 2020-01-25 18:46
  • 作者:mileseo

    手机丢了怎么办,这样做立马找回,比报警还有用

    小V提醒:去人多的地方,一定要看管好自己的财务,尤其是手机……现在手机等于钱包,手机本身和里面的数据都非常重要,手机丢了可就脑阔疼了。所以,想要手机不丢失,就要事先做好以下防备工作。提前做好防备,开启

  • 2020-01-25 17:03
  • 作者:征服南极

    win10如何激活?win10激活工具下载

    当我们下载安装windows系统之后会有一定的使用期限,不能够永久使用,所以需要我们激活系统,那么今天我给大家分享windows10激活工具。(关注私信回复“win10激活”获取下载地址)使用方法如下:第一步:解压压缩包第

文章排行

TOP ARTICLES

返回顶部