首页 > 教育 > 教育资讯 > 正文

ChatGPT不是从石头缝里蹦出来的 至暗时刻里的三个臭皮匠

文章来源:都市快报
字体:
发布时间:2023-02-13 08:02:00
  《江南网》江南第一门户网站!
 追踪网络热点,关注民生动态,传播江南文化,倡导网络新时代!
https://www.xjnnet.net/欢迎您! 

☆ 江南网 ☆欢迎您 

因为ChatGPT的出现,人类似乎找到了扮演上帝的感觉,给计算机注入了“灵魂”。

过去半个月来,ChatGPT是社交媒体当之无愧的主角。和6年前同样横空出世的AlphaGo不同,这次你我这样大众的感受更为强烈。这也是为什么,作为一款聊天机器人,它用仅仅2个月时间就收获了1亿用户。达到相同的成绩,TikTok用了9个月,更早时的instagram用了30个月。

在产业界,谷歌、百度、阿里等国内外科技巨头争相坐上牌桌,以推出自家版ChatGPT为目标,证明自身在AI领域的深厚积累。

为什么ChatGPT成了绕不开的话题?因为人工智能终于知道如何和人类进行自然交流,给出接近人类表达、认知、需求和价值观的回答,同时展现了成为普通人都能用的先进生产工具,以及未来如“水电煤”一般基础设施的可能性,尽管它依然不完美。

不过,它并不是从“石头缝里蹦出来”的。这是过去20年,以神经网络为主流,推动深度学习发展从量变到质变的结果。其间有无数人类群星和普通人为之闪耀。

了解这些人和事有助于进一步知道ChatGPT是怎么来的,有什么问题,又将带领人类走向何方。

这段有些漫长的旅程从一段刺耳的声音开始。

ChatGPT介绍杭州

大力出奇迹?

“ChatGPT缺乏创新,没什么革命性。”这个评价来自一个叫杨立昆的人——在全球几乎一边倒的赞誉声中,颇为格格不入。

杨立昆不是中国人,他的英文名是Yann LeCun,出生在法国。2017年以前,他在中文互联网上有着各种称呼:杨乐昆、杨乐春、严乐村……直到那一年来中国演讲,他官宣了自己的中文名。

如果是单纯的键盘侠,这样的评价不值一笑。但杨立昆恰好是全球为数不多能够对ChatGPT“指手画脚”的人物。

2019年,他和Yoshua Bengio、Geoffrey Hinton一起获得了计算机界的最高荣誉“图灵奖”,被称为“深度学习三巨头”。他们深信,计算机可以像人类一样,依靠神经网络进行“思考”。没有他们,就没有昨天的AlphaGo和今天的ChatGPT。

为什么LeCun会发出这样的感慨呢?ChatGPT的内核是大语言模型,从2018年OpenAI发布的第一代进化到了ChatGPT使用的第四代GPT-3.5,据说GPT-4也已经呼之欲出。

一路升级,OpenAI没有对算法模型进行根本改动,更多是微调了训练机制,以及越来越多人力和算力的投入,从“大力出奇迹”到“更大力出更大的奇迹”。

ChatGPT背后的投入远没有它给出的回复来得“举重若轻”。第一代GPT训练涉及的参数量为1.17亿,到了GPT-3这个数字变成了1750亿,扩容了近1500倍。对应的训练数据量,从5GB扩到了45TB,近万倍的增长。

为了训练GPT-3,OpenAI投入可能达到1200万美元,这还不算背后的微软为它斥资5亿美元建立的超算中心。

所以,搜狐创始人张朝阳表示,ChatGPT的成功是量的积累,包括了机器的算力、服务器的数量以及知识库,“因为训练成本投入过高,没能力的公司只会白白浪费资源。”

到了GPT-3.5,也就是ChatGPT,OpenAI引入了人类反馈强化学习(RLHF)机制。他们找了40个博士,对GPT-3.5针对不同问题给出的三个答案进行打分,建立奖惩模型,最终让机器知道怎样的回答更讨大部分人类喜欢——有人觉得ChatGPT有“讨好型人格”,即来源于此。

不过,RLHF是DeepMind(前沿人工智能企业)首创的。拆解ChatGPT背后的底层技术,类似的情况还有很多。比如,采用的Transformer架构最早由谷歌发明,使用的神经网络语言模型是另一个巨头Yoshua Bengio20多年前提出的,他和LeCun很早就提出让机器“自监督学习”的设想……

因此,在LeCun看来,就底层技术而言,ChatGPT并没有什么特别的创新,也不是什么革命性的东西,“与其说ChatGPT是一个科学突破,不如说它是一个像样的工程实例。”

然而,对绝大多数人而言,这道不断站在巨人肩膀上,穿行了80年的微光已经足够耀眼。

 

声明:
本文仅代表作者个人观点,与江南网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
 

责编:博杰
 

 

    匿名评论
  • 评论
人参与,条评论

新闻爆料