数据为王 决定人工智能 (黄锦辉)
时间:2020-07-12 出处:P泰生活
机器学习是体现AI的「关键促成技术」,可以基于不同方法落实,如神经网络等。(Freepik网上图片)人工智能(AI)系统利用机器(软件或硬件)代替人类的行为,要达到这目标,持续学习非常重要。人类自小便争取机会多读书、看报纸、看电视、上网等,目的就是增广见闻,充实自己。同样地,电脑也仿效人类不断学习,
数据为王 决定人工智能 (黄锦辉)

机器学习是体现AI的「关键促成技术」,可以基于不同方法落实,如神经网络等。(Freepik网上图片)

人工智能(AI)系统利用机器(软件或硬件)代替人类的行为,要达到这目标,持续学习非常重要。人类自小便争取机会多读书、看报纸、看电视、上网等,目的就是增广见闻,充实自己。同样地,电脑也仿效人类不断学习,此行为便是多年来科学家积极钻研的「机器学习」(Machine Learning, ML)。机器学习是体现人工智能的「关键促成技术」(Key Enabling Technology),概括而言其落实可以基于不同方法,例如数学模型(Mathematical Modeling)、计算机算法(Computational Algorithm)、神经网络(Neural Network)等。

「深度学习」技术应用广泛

值得注意是近年「深度学习」(Deep Learning, DL)技术大行其道,它是基于「多层」神经网络的机器学习方法。简单来说,一层神经组织负责处理一项任务,「多层」即是把多项任务串起来统一处理。

以「人脸识别」应用为例,系统之目的是从一张照片中识别出目标人物,整理过程中第一层任务是把相中所有物件(object)的边界(boundary)认出;第二层把各部位的相关边界连接起来识别人脸的部位(例子脸形、眼睛、耳朵、眼眉等);第三层把各部位本身及与其他部位之间的特徵找出来,最后第四层把所有人脸特徵组合起来判断相中人的身份。

透过「深度学习」,系统训练可以一次过把四层的任务,一层接一层地同时处理,这做法可减少每一层独立处理之后再互相连接的时候所产生之错误,分别包括自身及複合错误。「深度学习」被人工智能业界广泛使用来研发创新的应用系统,如「实时机器翻译」(Real-time Machine Translation),效果显着。

数据为王 决定人工智能 (黄锦辉)

深度学习助AI检测人脸特徵,从而判断相中人的身份。(维基百科图片)

机器学习依靠大数据作模型培训,因此数据质量是机器学习的关键问题。数据不足可以严重影响学习的可靠性,情况等同在统计学中数据不足会局限统计结果的覆盖範围,继而系统的準确率。

事实上,这亦是学术界做科研经常碰到的瓶颈问题,原因是工商业界拥有全球九成以上的应用数据,尤其是互联网巨擘例如腾讯、谷歌等公司,学术界能使用的少之又少。针对数据短缺问题,有人工智能科学家提出以下折衷方案:

「迁移学习」(Transfer Learning)是将一个源领域(source domain)已训练好的模型迁移至目标领域(target domain),从而建构出另一个相应而有效的目标模型。此举可以避免机器学习由零开始,节省大量训练数据的需求。以自然语言处理应用为例,既然系统已学会处理西班牙语,便可以把技术迁移至学习意大利语。又例如机器人经培训后学会踏双轮单车,它便很容易去学会驾驶电单车。「联邦学习」(Federated Learning)促进数据共享,各领域都拥有自己专有数据的电脑节点,透过分布式互相学习,可以强化各自的人工智能。由于各节点的数据格式不一致,难以集中管理,有见及此,近期科学家积极研究利用基于去中心化原理的「区块链」技术,进行高效分布式学习。科研偏重商业 弊多于利

在数码经济社会中,「数据是王者」(Data is King),可是这现象引发「富者愈富,穷者愈穷」的马太效应。大型跨国企业会利用自己的「大数据」推陈出新,研发出创新的人工智能产品,而中小型企业及学术界因数据不足,在发展速度上望尘莫及。若然情况没法改善,全球的科研便会偏重于商业应用,而忽略基础科学,长远而言对未来人文发展弊多于利。

数据为王 决定人工智能 (黄锦辉)

工商业界拥有全球九成以上的应用数据,学术界能使用的少之又少。(法新社资料图片)

更多黄锦辉文章:审视人脸识别 应用价值与私隐 fb推Libra 谋主导数码经济 香港数码发展弱 竞争力难持续



上一篇: 下一篇: