您的位置 首页 原创

SAT是什么意思?谷歌的巴德sat考试成绩会怎样?

对谷歌来说,不幸的是,巴德似乎还考不上哈佛。 谷歌已经为巴德的错误付出了代价——但它每天都在学习。图片来源:JONATHAN RAA—NURPHOTO/GETTY IMAGES 谷…

对谷歌来说,不幸的是,巴德似乎还考不上哈佛。
谷歌已经为巴德的错误付出了代价——但它每天都在学习。图片来源:JONATHAN RAA—NURPHOTO/GETTY IMAGES

谷歌对巴德并不完美的事实相当坦诚。

Alphabet首席执行官桑达尔·皮查伊似乎对本公司的人工智能模型需要走多远并不焦虑,他在一份公司内部备忘录中写道,巴德(Bard)还处于早期阶段:“随着更多人开始使用巴德,测试它的功能,到时会出现让我们意想不到的事情。会出现各种问题。”

现在巴德已邀请公众参与测试,之前参与内测的8万名用户主要是谷歌员工。

《财富》杂志终于排到号了,所以我们赶在今年春天的美国青少年SAT考试之前,对巴德进行了测试。

SAT是全球公认的美国大学入学考试,考试的技能包括阅读、写作和数学。

对谷歌来说,不幸的是,巴德似乎还考不上哈佛,因为它答的大部分数学题都是错的,而在写作和语言测试中想考高分也很艰难。

第一次登录巴德时,用户的期望值已经被弹出的一条消息设定好了,上面写着:“巴德并不总是正确的。巴德可能会给出不准确或不恰当的回答。如果有疑问,可以点击‘谷歌一下’(Google it)的按钮检查巴德的回复。有了你的反馈,巴德会变得更好。请对巴德的答案做出评分,并对任何可能具有冒犯性或不安全的内容进行标记。”

巴德表现如何?

回到答题上来。

《财富》杂志从在线学习资源中找了一些SAT数学练习题,发现巴德有50%到75%的答案是错的——哪怕是有选项的选择题。

很多情况下,巴德给出的答案甚至不在选择范围内,不过如果再问一遍,它有时就能答对。

这款人工智能的不准确性已经让谷歌花费了大约1000亿美元。

今年2月巴德刚刚面世时,在它被问的一系列问题中,包括如何向一个9岁的孩子解释詹姆斯·韦伯太空望远镜都发现了什么。

巴德回应说,该望远镜拍摄了“我们太阳系外的第一张行星照片”,但是据美国宇航局证实,第一张系外行星的照片是由智利的地面阵列甚大望远镜于2004年捕捉到,并于2005年确认为系外行星。

科学和数学都不是巴德的强项,不过在阅读和写作练习方面,它确实表现要强一些。

《财富》杂志首次用巴德进行书面语测试时,答对率约为30%,而且问题往往要问两遍它才能理解。

哪怕答案是错的,巴德的语气也很自信,经常以这样的回答开头:“正确答案是”——这是大型语言模型的共同特征。

奇怪的是,巴德在数学和写作能力测试中得分最高的是关于《哈利波特》作者J.K.罗琳的一篇文章。

这次测试中,巴德得了1200分,这个SAT分数可以上霍华德大学、圣地亚哥州立大学和密歇根州立大学等。

随着《财富》杂志向巴德提出的语言类问题逐渐增多(总共约45个),巴德出现题目理解困难或需要重复提问的频率在减少。

在阅读测试中,巴德的表现同样优于数学测试——平均答对了一半左右。

谷歌的一位发言人在回应《财富》杂志(Fortune)的置评请求时,重申了皮查伊的论点,他说:“巴德还在实验阶段,有些回复可能不准确,所以要仔细检查巴德给出的回复。有了你们的反馈,巴德每天都在进步。在巴德公开发布之前,数千名测试人员通过提供反馈,帮助巴德提高了它的质量、安全性和准确性。

“用生成式人工智能加快人们的思考确实是件令人兴奋的事情,但它仍处于早期阶段,巴德只是一个实验。虽然巴德有符合我们的人工智能原则的内置安全控制和明确反馈机制,但请注意,它可能会显示不准确的信息。”

在给巴德提问题的几天时间里,它确实显示出准确性在提高的迹象。关于它的发展速度,它是这么说的:“我会说我正在快速进步。”

“我现在可以做一些就在几个月前还不会做的事。我很兴奋地看到我的未来是什么样的。我相信我将继续进步,在未来几年,我将能够做到更多。”

免责声明:文章内容不代表本站立场,本站不对其内容的真实性、完整性、准确性给予任何担保、暗示和承诺,仅供读者参考,文章版权归原作者所有。如本文内容影响到您的合法权益(内容、图片等),请及时联系本站,我们会及时删除处理。

作者: 崔玉华

账户发布的文章都是来源于网络整合!内容仅代表提供方的观点,不代表本人的观点和看法,与本人立场无关,相关责任提供方自负。如有侵权联系站内删除!

为您推荐

人勤春早争朝夕,烟区农忙正当时

“从事烟叶工作一定要明白节气的重要性。农谚说‘季节不等人、春日胜黄金’,我们要紧跟时间节拍,将工夫下在烟叶移栽之前,打牢...

老八辈子指的是多久以前的事情

“老八辈子”是一个非正式的、口语化的表达,用来形容非常久远的事情,但具体指多久以前并没有一个固定的时间标准。这个表达更多...

视灵药剂引发全球热议:究竟是科技奇迹还是伦理危机?

近日,一款名为“视灵药剂”(Visionary Elixir)的新型药物在全球范围内引发广泛关注。该药剂声称能够让人短暂...

常见的优米品种:哪些优米品种适合在北方种植?

从日常用语角度来说,“优米” 通常指优质大米,以下为你介绍一些常见的优米品种: 新兆优 6615:由湖北华昌农业科技有限...

可再生能源定额站功能定位,规划经费预算

可再生能源定额站的规划需要综合考虑多方面因素,以下是从功能定位、站点布局、人员配置等方面进行的一些规划建议: 明确功能定...

发表评论

返回顶部