GAITC2022智媒专题论坛王健民人工
11月27日,在全球人工智能技术大会上,由CAAI智能传媒专委会、中国传媒大学媒体融合与传播国家重点实验室、新浪AI媒体研究院联合支持的“融合与发展”新智者·智能媒体专题论坛在线上举行。微博机器学习总经理、微博技术委员会委员王健民分享了题为《人工智能的技术创新赋能微博内容理解与分发》的演讲,和与会嘉宾交流人工智能技术发展的趋势,以及微博推荐系统面临复杂多样的业务场景中的创新理论和实践成果,解读智媒时代的发展现状和未来方向。
图注:微博王建民-“融合与发展”新智者·智能媒体专题论坛
以下是王建民分享实录,内容经编辑略有删减:
大家好,我是来自微博的王建民,非常高兴和大家一起交流,我今天分享的主题是:《人工智能的技术创新,赋能微博内容理解与分发》。
首先,我来看一看人工智能的总体发展趋势。纵观历史,可以看出人工智能的发展,有三个明显特征:分别是训练数据的海量化及多样化;算法模型的复杂化及通用化以及算力的高效化及规模化。
我们知道,数据、算法和算力是构成人工智能的三大要素。在数据方面,训练数据,从早期的万级别规模,到达了目前的百亿级别规模,并且,多种数据形态被融入进来。而算法方面,模型的参数从早期的万级别参数量发展到目前的万亿级参数规模,而且,模型结构有大一统的趋势。数据和算法的规模和效率,都是建立在单机算力越来越强、机器越来越多的分布式计算架构之上的。
我们在具体实际工作中看到的一些人工智能发展趋势。首先,我们看到的一个明显趋势,就是模型的训练过程,逐步从有监督为主,转化为自监督和无监督为主。
我们原来训练一个模型,往往是人工先标注一批数据,然后训练模型。这种方法有很大的局限性,那就是人工标注成本很高,所以很难获得大量数据,数据量不够,模型没有得到充分训练。参数规模大的优势根本就发挥不出来。
为了缓解缺乏数据的问题,“自监督”模式逐渐流行。“自监督”机器学习,往往通过一些规则,自动构建训练数据,避免了人工标注成本高、数量少的问题,我们就可以低成本地获得海量的训练数据。
典型的自监督学习代表,就是Bert模型,它随机扣掉一句话中的部分单词,让模型根据剩下的单词来预测被扣掉的单词,通过这种方式,可以自动获得几乎无限的训练数据。在自然语言领域,Bert是一个里程碑式的进步。
在人工智能技术发展趋势中,这些年图像理解在各行各业应用越来越广泛。主要得益于两方面:一方面是5G等通信技术的快速发展,另一方面由于手机终端的处理能力越来越强大,使得图片、视频类型的内容生产成本越来越低,图像内容也就越来越多。
经过这么多年的发展,人工智能在图像理解领域取得的辉煌的成就,尤其是在一些细分领域,比如人脸检测与人脸识别。而在自动驾驶领域,虽然已经取得很不错的进展,要做到完全放心使用,我觉得还是有一定的路要走。
刚才提到过,除了文本内容,图片、视频类型内容在网络内容中占比越来越高,单从一个模态去理解内容,总是有很大的局限性,应用也会受到限制。所以综合多个模态去理解内容,是人工智能发展的一个必然趋势。
人工智能的另外一个趋势,是超大规模图计算。这个主要得益于计算机算力越来越强悍。相对其他机器学习模型,超大规模图计算有个特殊的优势:信息不再是一个一个的孤立点,信息在超大网络中的传递,促进信息的流动、汇聚与集成,
这种算法,对信息量比较少的节点尤为重要,比如,对系统里面的新用户,也就是我们常说的冷启动用户,他本来的信息就非常少,不过可以通过网络中临近的用户,来推导这个用户的信息。这就是超大规模图计算的魅力所在
人工智能还有一个明显的技术趋势,就是从专用模型走向通用模型。目前的AI模型绝大多数仍然是任务专用的,通常针对具体任务设计特定结构的模型,一个模型专门做一件事,比如,自然语言处理常常会使用Bert模型、图像处理经常采用CNN模型。
从专用模型走向通用模型则是一个技术发展趋势,谷歌在前些年提出这一构想,希望通过构造一个通用的大模型,达到“一个模型做多件事”的目标。
不同任务数据输入后,通过路由算法,选择神经网络的部分路径到达模型输出层,不同任务既有参数共享,也有任务独有的模型参数部分,通过这种方式来达成“一个模型做多件事”的目标。
另外,强化学习是人工智能技术发展趋势里面一个很重要的领域。大家提到强化学习,可能第一时间想到的是AlphaGo,确实,AlphaGo和李世石的“世纪之战“,是人工智能的里程碑事件。其实,强化学习在其他领域也有很多的结合点:如自动打游戏,自动驾驶,机器人等领域。
个人觉得,只要我们深刻理解复杂的业务场景,找到一个合适的,容易量化的reward函数,强化学习技术就会在业务发挥重要的价值。
前面跟大家简单的介绍了人工智能的几大发展趋势。这些都是我们在具体实际工作中的一些感受,也是微博对人工智能工作理解的一个总结。
我们应该感恩这个时代,人工智能的飞速发展,让我们能做的事情越来越多,也让我们的事情越做越好。微博和大部分互联网公司一样,正在享受着人工智能给我们带来的红利。我们正在把人工智能方方面面的技术,与我们的核心业务深度结合,赋能各个应用场景。
具体来说,我们的应用场景,包括:关系分发,兴趣推荐,push,超话,视频,新闻等业务场景。
微博推荐系统面临复杂多样的业务场景,微博环境下做推荐系统,既具有鲜明的微博特色,同时又面临着复杂的业务场景。主要体现在三个方面:首先是无处不在的社交关系。我们知道,微博作为国内最大的社交媒体,目前月活用户达到5个多亿,而这些用户通过
转载请注明:http://www.abuoumao.com/hykz/6829.html