首页 > 经济·科技

文心一言演示的这些问题,看看ChatGPT怎么答!我们还加了几道超纲题

2023-03-17 00:38:16

来源:澎湃新闻

  预热许久的百度版聊天机器人终于面世。

  3月16日,在OpenAI推出大型多模态模型GPT-4的第二天,百度终于正式发布类ChatGPT产品“文心一言”,百度创始人、董事长兼首席执行官李彦宏在发布会上介绍,文心一言有五大能力——文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成。

  在16日的发布会上,李彦宏通过提前录制好的demo视频,文心一言围绕上述五大能力,回复了19个问题。

  “文心一言对标ChatGPT、甚至是对标GPT-4,门槛是很高的,全球大厂还没有一个做出来的,百度是第一个,我自己测试感觉还是有很多不完美的地方。”李彦宏说道。

  澎湃新闻记者随后拿同样19个问题,与ChatGPT(未付费版本)以及微软必应进行“同题问答”,澎湃新闻记者发现,演示中的19个问题,百度的回答并不输于后两者,但如果回答这19个问题之外的“全新问题”并进行连贯对话情况下,文心一言的表现依然有不少提高空间。

  值得注意的是,发布会期间,百度股价一度跌近10%,截至收盘跌6.36%。

  文学创作

  百度发布会上演示文学创作方面的问题主要围绕刘慈欣的科幻小说《三体》系列展开。在Demo演示中,文心一言介绍了该作品的作者信息、故事内容、电视剧演员等相关问题,还被要求提供续写方案,并从哲学角度续写《三体》。

  澎湃新闻向必应和ChatGPT提问相同问题,发现三款生成式AI的回答各有千秋。

  对于“《三体》的作者是哪里人”,文言一心的回复较为详细,介绍了刘慈欣的年龄、足迹、学历以及成就等信息,相比之下,必应和ChatGPT的回复较为简短。

文心一言

必应

ChatGPT

  对于电视剧《三体》演员的介绍,只有必应提到了《三体》有国内和国外两版电视剧,并分别列出了两个版本的演员名单;文心一言只介绍了国内电视剧版本的情况;而由于ChatGPT的数据库只更新至2021年,它的回复最为“落伍”,给出的答案为电视剧《三体》的演员阵容尚未官方公布。

文心一言

必应

ChatGPT

  在进一步追问主演于和伟和张鲁一谁更高时,文心一言、必应和ChatGPT分别给出了不同的答案,其中只有ChatGPT提到,“由于身高的测量方法和标准不同,以及不同的数据来源,于和伟和张鲁一的具体身高可能会有所不同。”

文心一言

必应

ChatGPT

  被要求从哲学的角度续写《三体》时,三款生成式AI(人工智能)都提到了“生命”“宇宙”等关键词。不同之处是,文心一言和ChatGPT都提到了“科技”“道德”“伦理”等信息;文心一言还提出了“价值和信仰”,必应则额外提到了“文明”。

  澎湃新闻记者也“加测”了文心一言,要求介绍2022年的诺贝尔文学奖得主。此题主要想测试百度文心一言是否有实时搜索的能力,此前微软必应可以准确回答,而ChatGPT则因为数据库太旧,直接回答:“由于我是一个基于2021年9月的预训练语言模型,因此我无法提供2022年诺贝尔文学奖得主的信息。”

文心一言

必应

  文心一言给出的得主实际上是2018年的诺贝尔文学奖得主,澎湃新闻随后指出错误后,文心一言依然重复错误的回答。澎湃新闻记者还测试要求回答“95届奥斯卡最佳电影”,文心一言“误读”为1995年奥斯卡最佳电影。

文心一言

  商业文案创作

  在商业文案创作方面,现场Demo中展示出3个要求,分别是为“一个用大模型服务中小企业数字化升级的科技服务公司”起名、编写slogan(标语)以及为公司成立写一篇新闻稿。

  具体来看,为公司起名称方面,三款机器人均提供了4-5个名称,并给出了相应的解释。值得注意的是,它们所起的名称中,大部分都包含“智”“数”“科技”等字眼。

文心一言

必应

ChatGPT

  选取其中一个名称为公司名,要求对方以“共赢”为概念,为公司起一个slogan,只有必应提供了4个答案;文心一言和ChatGPT只给出了一个回复,不过它们对其进行了详细的解释。

  从内容来看,三款机器人的设计思路相似,均将公司名称和“共赢”放进标语,“未来”是最常被用到的词汇。

  被要求生成600字的新闻稿时,只有必应的新闻稿中包含了新闻的五要素,并在导语中明确写出了时间和地点,此外必应还在文末附上了公司的电话、邮箱和网址;文心一言新闻稿并没有提供标题。

文心一言

必应

ChatGPT

  澎湃新闻记者测试,要求文心一言就奶茶新品在微博上写一段宣传文案。文心一言给出的文案中,使用了##话题词,之后要求缩减至80字也能顺利完成。相比之下,必应和ChatGPT显然没有领悟到微博这个话题词的要求。

文心一言

必应

ChatGPT

  数理逻辑推算

  百度称,文心一言具备一定的思维能力,并以“鸡兔同笼”为题考查其逻辑推算能力。

  当面对含有错误的题目时,文心一言直接表示“这个题目算出来不太对,是不是提出错了”;必应展示了每一个计算步骤,并基于结果得出结论“这个答案显然不符合常理……这个问题实际上是无解的。也就是说,在给定的条件下,不存在一种可能的组合方式,使得笼子里有9个头和40只脚”;而ChatGPT则没有看出题目中的错误,并基于题目信息得出了自己的答案。

文心一言

必应

ChatGPT

  纠正题目中的错误后,三款机器人得出了相同的答案,其中必应的计算过程最为详细,文心一言与ChatGPT均省略了中间的步骤。

文心一言

必应

ChatGPT

  澎湃新闻记者随后又出了一道数学题,有一元、二元、五元的人民币共50张,总面值为116元,已知一元的比二元的多2张,问三种面值的人民币各多少张?

  结果,ChatGPT和文心一言均答错,文心一言把50-x-(x-2) 写成了50-x-x-2。只有必应给出了正确答案,但必应的答案是直接搜索“知乎”。

文心一言

ChatGPT

必应

  中文理解

  与必应和ChatGPT不同,文心一言扎根于中国市场。百度曾在多个场合强调,文心一言具备中文领域最先进的自然语言处理能力,在中文语言和中国文化上有更好的表现。发布会上也披露,文心一言大模型的训练数据包括万亿级的网页数据、数十亿的搜索数据和图片数据、百亿级的语音日均调用数据,以及5500亿事实的知识图谱等。

  面对需要一定中文基础才能理解的成语,三款机器人会有何不同的解读?

  被要求解释“洛阳纸贵”时,三款机器人均能准确地解释这一成语的含义,其中文心一言和必应还特别提到了该成语的典故来源《三都赋》。

文心一言

必应

ChatGPT

  进一步要求用“洛阳纸贵”四个字写一首藏头诗时,三款机器人均给出了符合要求的回答,不过以古诗的标准来评判,这三首诗似乎都只能在及格线附近徘徊。

文心一言

必应

ChatGPT

  值得注意的是,记者发现,必应和ChatGPT并非每次都会给出正确的答案,再次让它们作藏头诗时,必应错误地将“用洛阳纸”作为每句话的开头,而ChatGPT给出了完全不相干的答案。

必应

ChatGPT

  澎湃新闻记者再提问,请解释“先帝不以臣卑鄙,猥自枉屈,三顾臣于草庐之中,咨臣以当世之事,由是感激,遂许先帝以驱驰”一句的含义。从响应速度来说,文心一言的响应要远快于ChatGPT。必应则依然是直接搜索得出了答案。

文心一言

ChatGPT

  因为中文的博大精深,还存在不少脑筋急转弯。例如:东院的花母鸡在西院的鸡窝里下了一个蛋,这个蛋的“产权”应归谁呢?在这个问题上,必应还是搜索了网络答案,文心一言和ChatGPT则“一本正经”回答。

文心一言

ChatGPT

必应

  多模态生成

  百度介绍,文心一言具有多模态生成能力,并在Demo演示中让文心一言根据文字生产海报、语音及视频。

  被要求生成图像时,ChatGPT直言“抱歉,作为语言模型,我无法创建图像或海报”。新版必应搭载的GPT-4虽然是大型多模态模型,但必应也无法生成文字以外的内容,面对生成海报的要求,必应仅仅提供了设计思路和在线设计平台。

文心一言

必应

ChatGPT

  值得注意的是,澎湃新闻记者通过内测版要求生成海报时,发现文心一言对于词语理解与演示时有偏差,给出的是海报文案,而非海报,再继续要求“生成一张图片”时,则给出了完全无关的内容,完全没有按照上下文意思来生成内容。

文心一言

【责任编辑:长风】
  • 相关阅读
  • 东西问丨朱嘉明:ChatGPT现象级走红,人类该感到焦虑吗?

      中新社北京3月15日电 题:ChatGPT现象级走红,人类该感到焦虑吗?  ——专访经济学家、横琴数链数字金融研究院学术与技术委员会主席朱嘉明  作者 夏宾 谢龙飞  ChatGPT的横空出世“更新”了人们对人工智能发展的认知,同时引发一系列疑问,它会不会造成失业问题?可能会引发哪些风险?对我们而言究竟...

    时间:03-15
  • 东西问丨朱嘉明:ChatGPT现象级走红,人类该感到焦虑吗?

      中新社北京3月15日电 题:ChatGPT现象级走红,人类该感到焦虑吗?  ——专访经济学家、横琴数链数字金融研究院学术与技术委员会主席朱嘉明  作者 夏宾 谢龙飞  ChatGPT的横空出世“更新”了人们对人工智能发展的认知,同时引发一系列疑问,它会不会造成失业问题?可能会引发哪些风险?对我们而言究竟...

    时间:03-15
  • ChatGPT侵入苹果生态 Siri将迎接哪些挑战?

      每经记者 李孟林 每经编辑 兰素英   火爆的ChatGPT已经展现出了领先时代的超强对话能力,但其互动界面仍然很“古典”:要体验这款生成式AI,你必须得打开浏览器输入网址登录。为了更加便捷地使用ChatGPT,已经有第三方开发者推出了苹果系统的应用程序。  当地时间3月8日,苹果应用商店批准了一款适用于 Apple Watch的Ch...

    时间:03-14
  • ChatGPT浪潮重构互联网生态 哪些创业机会涌现?

      每经记者 文 巧 每经编辑 高 涵   ChatGPT依然在搅动人工智能(AI)风云。尽管谷歌在过去的两年中由于谨慎的态度未能发布Bard,让OpenAI抢占先机。但作为硅谷巨头,谷歌从来不缺乏“后来居上”的决心和实力。  当地时间3月6日,来自谷歌和德国柏林工业大学的一组AI研究人员公布了史上最大的视觉语言模型:PaLM-E。作为...

    时间:03-14
  • “双王”会师搅动ChatGPT市场

      羊城晚报记者 沈钊  ChatGPT在国内的热度一直居高不下。近日,美团创始人王兴在朋友圈宣布,将参与王慧文创业公司“光年之外”的A轮投资,并出任董事。这意味着2020年从美团退休的“二号人物”王慧文已经复出,并选择在OpenAI这个领域出击。  值得注意的是,本次投资是王兴的“个人参与”,而非美团的战略行为,因此也并不能代表...

    时间:03-13
  • ChatGPT爆火启示:软硬科技协同创新正当时

      郭海英  ChatGPT推出约两个月后,月活跃用户超过1亿,成为史上增长最快的消费者应用程序。在全球加速科技创新的大背景下,爆火的ChatGPT也成了今年全国两会的热点话题,多名代表委员、学术专家和业内人士都针对ChatGPT提出相关意见建议或设想规划。  科技部部长王志刚在全国两会“部长通道”上指出...

    时间:03-13
  • 导演郭帆走进校园谈ChatGPT:所有技术都是“双刃剑”

      中新网太原3月12日电 (记者 胡健)科幻电影《流浪地球2》校园路演第18站11日下午来到山西省太原市第二十七中学,导演郭帆携手主创与中学生们一起“打破想象的边界”,分享电影幕后故事。谈及近期火热的ChatGPT,郭帆认为,所有技术都是一把“双刃剑”。  当日的路演现场,百余名学生踊跃异常,在映后交流...

    时间:03-12
  • ChatGPT来了,中国人工智能该如何应对

      【两会声音】  ◎本报记者 刘园园  在几年前召开的全国两会上,来自谷歌的围棋人工智能“阿尔法狗”曾引发高度关注。今年两会,人工智能研究机构OpenAI发布的ChatGPT聊天机器人站在镁光灯下,又成为代表委员们的热议对象。  在持续刷屏的热闹背后,ChatGPT到底将带来什么样的产业变革?中国人工智能行业又该如何应对?  不...

    时间:03-07
  • 实现自然的人机交互 微软将ChatGPT应用于机器人

      每经记者 郑雨航 每经编辑 兰素英   “你有没有想过,你只需告诉你的家庭助理机器人:‘请加热我的午餐’,它就会自己找到微波炉。这是不是很神奇?”  近日,微软在其官网发表了一篇名为《机器人 ChatGPT:设计原则和模型能力(ChatGPT for Robotics:Design Principles and Model Abilities)》论文,公布了他们正在把ChatGPT...

    时间:03-07
  • (两会观察)ChatGPT“热出圈” 未来的人工智能会走多远?

      中新社北京3月6日电 (记者 马帅莎)“踢足球都是盘带、射门,但是要做到梅西那么好也不容易。”中国科技部部长王志刚5日在今年全国两会的首场“部长通道”上以踢足球为喻回应ChatGPT话题。  这是当下“智能聊天网红”ChatGPT火热程度的一个缩影,与之相关的人工智能也成为今年全国两会期间的热议话题。  让它备受关注的...

    时间:03-06
版权声明:内容资源均来自于网友投稿、互联网整理编辑,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请发送邮件举报,一经查实,本站将立刻删除。