【首发评测】国产大模型真落地,我用这5个问题为难了它们,结果你意想不到

出品|网易科技《智见焦点》

作者|赵芙瑶

编辑|丁广胜

大模型的风暴席卷全球,然而对于普通C端用户来说,国产大模型的内测邀请码却总是“一码难求”,即使开放申请体验,排队时长也难以预估。

然而就在今日,备受行业瞩目的首批大模型产品获批名单来了,当中既有百度、字节跳动、腾讯、华为、商汤等大型企业,也包含了具有科研院校背景的智谱AI、中科院等,同时创业公司百川智能、MINIMAX等也位列其中。

【首发评测】国产大模型真落地,我用这5个问题为难了它们,结果你意想不到

也就是说,国产大模型人人可用的时代已经到来。

2022年12月,国家网信办、工信部、公安部联合出台了《互联网信息服务深度合成管理规定》,对深度合成技术作出规范,并规定从2023年1月10日起实施。2023年7月,国家网信办等七部门联合公布《生成式人工智能服务管理暂行办法》,希望促进生成式人工智能健康发展和规范应用。国内生成式AI的发展也紧跟政策步伐,此次11家公司首批通过《生成式人工智能服务管理暂行办法》备案,可正式上线面向公众提供服务,无疑意味着市场格局的又一次生变。

Open AI之所以强势出圈,与其强大的数据集不无关系。曾几何时,对于许多国产大模型来说,中文语料库短缺的痛点一直存在。此前大模型也并未全面开放,中文数据无法像ChatGPT那样进行“几何级”的积累。

AI时代“百舸争流”,哪家大模型最先拿到了开放的名额,就相当于拿到了最先积累中文数据、占领市场份额的“船票”。

那么,这些大模型的水平究竟如何?网易科技就以下近期热点话题,对首批已开放的部分大模型展开了评测。

【首发评测】国产大模型真落地,我用这5个问题为难了它们,结果你意想不到1

百度-文心大模型-文心一言

嵌入搜索引擎、插件可生成表格

文心一言是知识增强的大语言模型,2023年3月27日上线, 6月开放3.5版本内测。百度作为国内率先入场大模型的企业之一,李彦宏对于文心一言寄予厚望。从文心一言的回答来看,比较言简意赅,虽然并未进行强观点的输出,但是答案相对中规中矩。

【首发评测】国产大模型真落地,我用这5个问题为难了它们,结果你意想不到2

此前ChatGPT的插件集十分火爆,此次令人惊喜的是,文心一言也更新了插件功能!包括览卷文档、E言易图以及说图解画。

【首发评测】国产大模型真落地,我用这5个问题为难了它们,结果你意想不到3

近期正值财报季,上市企业们纷纷发布二季报,以折线图、柱状图的形式展现财务数据会更加一目了然。输入财报数据,并选中E言易图插件,就会生成柱状图,然而美中不足的是,E言易图并不能明白“在柱状图上标明数据”的指令。

【首发评测】国产大模型真落地,我用这5个问题为难了它们,结果你意想不到4

至于“说图解画”插件,文心一言不知为何忽然建议使用英文进一步提问,或许是使用了英文数据集的缘故。

【首发评测】国产大模型真落地,我用这5个问题为难了它们,结果你意想不到5

不过可圈可点的是,百度将文心一言的对话能力嵌入了搜索引擎,与New Bing类似,可以面向更多的用户群体,文心一言客户端也已经在App store上线。

【首发评测】国产大模型真落地,我用这5个问题为难了它们,结果你意想不到6

商汤科技-日日新大模型-商量

To B To C两手抓

日日新(SenseNova),是商汤科技宣布推出的大模型体系,包括自然语言处理模型“商量”(SenseChat)、文生图模型“秒画”和数字人视频生成平台“如影”(SenseAvatar)等。

【首发评测】国产大模型真落地,我用这5个问题为难了它们,结果你意想不到7

从商量·SenseChat的回答来看,回答连贯、逻辑流畅、较为专业、篇幅较长,并且有一些有价值的观点。更令人惊喜的是,其拥有“辩证思维”。例如给出蔚来造手机以及小米造车的分析时,商量能发现二者之间的异曲同工之处。

【首发评测】国产大模型真落地,我用这5个问题为难了它们,结果你意想不到8

【首发评测】国产大模型真落地,我用这5个问题为难了它们,结果你意想不到9

从其它回答来看,商量在回答问题时都会联网查询相关信息。但日日新的To B应用还暂未向公众开放,目前只能联系商务进行试用。

MINIMAX-ABAB大模型

有限速、不可输入过长文本

ABAB大模型,是Minimax推出的自研通用大模型。令人费解的是,其开放平台在当前阶段,体验用户(未充值)调用接口时会被限速,所以其生成答案的速度为所有大模型中最为缓慢,并且输入字符也有限制,所以只能将每个问题单独提问一遍。其页面UI设计让信息浏览也略有不便,不过生成的答案倒是没什么毛病。

【首发评测】国产大模型真落地,我用这5个问题为难了它们,结果你意想不到10

【首发评测】国产大模型真落地,我用这5个问题为难了它们,结果你意想不到11

【首发评测】国产大模型真落地,我用这5个问题为难了它们,结果你意想不到12【首发评测】国产大模型真落地,我用这5个问题为难了它们,结果你意想不到13

【首发评测】国产大模型真落地,我用这5个问题为难了它们,结果你意想不到14

中科院自动化研究所-紫东太初大模型

效果差强人意 理解能力还需提高

据官网介绍,紫东.太初是中科院自动化所与MindSpore社区联合打造的全球首个图、文、音三模态大模型。紫东.太初将文本 + 视觉 + 语音各个模型进行协同,可以完成跨模态检测、视觉问答、语义描述等下游任务。

首先是视觉问答,目前来看,紫东太初似乎完全无法理解指令。

【首发评测】国产大模型真落地,我用这5个问题为难了它们,结果你意想不到15

以图生文方面,推理有错误,误判了桌上的物品。

【首发评测】国产大模型真落地,我用这5个问题为难了它们,结果你意想不到16

以文生图方面,生成的图片较为模糊,不过好在理解了指令。

【首发评测】国产大模型真落地,我用这5个问题为难了它们,结果你意想不到17

智谱AI -GLM-ChatGLM

多种模型可供选择

智谱AI是由清华大学计算机系技术成果转化而来的公司,希望打造新一代认知智能通用模型。今日其首款生成式AI助手“智谱清言”已在各大应用商店上线。这款工具基于智谱AI自主研发的中英双语对话模型ChatGLM2,与此同时,智谱AI官网也已开放其他大模型试用入口。

【首发评测】国产大模型真落地,我用这5个问题为难了它们,结果你意想不到18

从ChatGLM-Pro的回答来看,要点明确,篇幅较为简洁,在内容丰富度上略微逊色。

【首发评测】国产大模型真落地,我用这5个问题为难了它们,结果你意想不到19

字节跳动-云雀大模型-豆包

拟人化AI助手

豆包是字节跳动公司基于云雀模型开发的AI工具,提供聊天机器人、写作助手以及英语学习助手等功能。它可以回答各种问题并进行对话,帮助人们获取信息,支持网页 Web 平台,iOS 以及安卓平台,但 iOS 需要使用 TestFlight 安装。

【首发评测】国产大模型真落地,我用这5个问题为难了它们,结果你意想不到20

【首发评测】国产大模型真落地,我用这5个问题为难了它们,结果你意想不到21

【首发评测】国产大模型真落地,我用这5个问题为难了它们,结果你意想不到22

豆包清晰、详细地回答了问题,同时具有逻辑性和连贯性,也有一定程度的创新性,提供了新的观点和信息。

百川智能-百川大模型

结构严谨 观点具有辩证性

百川智能,是王小川和茹立云联合创立的一家研发并提供通用人工智能服务的中国公司,旨在打造中国版的 OpenAI 基础大模型及颠覆性上层应用。

从百川大模型的回答来看,其结构严谨,会一分为二的阐述观点并进行总结。

【首发评测】国产大模型真落地,我用这5个问题为难了它们,结果你意想不到23

上海人工智能实验室-书生大模型-书生·浦语+

仍未开放 值得期待

目前,书生大模型的官网还未开放试用入口,只提供了一些此前的案例,所以目前还无法评判其对话能力。

【首发评测】国产大模型真落地,我用这5个问题为难了它们,结果你意想不到24

结语

此次国内11家大模型企业首批通过《生成式人工智能服务管理暂行办法》备案,无疑标志着中国生成式人工智能服务将拥有更加规范的管理。该备案的通过,意味着这些生成式人工智能系统的合法性得到了确认,也意味着这些系统的服务质量将受到更严格的管理。

这对于全行业来说,都是一个积极信号,必将有助于推动生成式人工智能行业的健康、有序、快速发展,让大模型人人可用,让数据积累更加简单。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注