财经新闻网消息:
近日,北京致远研究院召开大型模型评测大会,发布解读国内外140余种开源和商业闭源语言及多模态大型模型的综合能力评测结果。
与此同时,北京致远研究院院长王忠元告诉科创板报记者,针对本次评估,研究院与北京市海淀教委联合开展了大规模模型K12学科测试,首次,对于了解当前大型模型的发展具有非常强的指导意义。 ,这也是与以往各种大模型评测的主要区别。
《科创板日报》记者注意到,评价对比显示,该模型的学科综合能力仍远远落后于北京海淀学生的平均水平。
文盛视频评测前三:Sora、爱视科技
北京致远人工智能研究院是人工智能领域的新型研发机构。 它于2018年11月在科技部和北京市的支持下,联合北京市人工智能领域的龙头单位共同成立。去年6月,致远发布了无道3.0大模型系列,宣布进入全面开源的新阶段。
《科创板报》记者了解到,本次致远评测从主观和客观两个维度考察了语言模型的简单理解、知识应用、推理能力、数学能力、编码能力、任务解决能力、安全性和价值观。 七大能力; 对于多模态模型,主要评估多模态理解和生成能力。
据介绍,在中国背景下,国产头部语言模型综合性能接近世界一流水平,但能力发展不平衡。 在图像和文本问答任务的多模态理解上,开源和闭源模型平分秋色,国内模型表现突出。 国内多模态模型在中文语境下的文本生成能力与世界一流水平存在不小差距。 就多模态模型的视频能力而言,与各公司发布的演示视频的长度和质量相比,Sora具有明显的优势。 在其他开放评测的文森视频机型中,爱视科技的国产机型表现出色。
语言模型的主观评价结果显示,在中文语境下,字节跳动豆宝和GPT-4排名第一和第二,国内大型模型更了解中国用户。 在语言模型的客观评价中,GPT-4和百川智能分列第一和第二。 百度文心一言4.0、智浦华章GLM-4、月之暗面Kimi均进入语言模型主客观评价前五名。
多模态理解模型客观评价结果显示,在图文问答方面,阿里巴巴统一Qwen-vl-max和上海人工智能实验室-Chat-V1.5领先于GPT-4和LLaVA-Next-Yi-分别为34B。 上海人工智能实验室VL-7B紧随其后。
多模态生成模型文胜图评测结果显示,DALL-E3排名第一,智浦华章和Meta-分别排名第二和第三,百度文信壹格和字节跳动-Image紧随其后。 多模态生成模型文盛视频评测结果显示,Sora、Pika、-V2位列前五。
可见,Sora在文胜视频领域依然占据第一的位置。 那么,国内文圣视频与国外的差距到底有多大呢? 国产大车型什么时候才能赶上?
王中原回应科创板报记者表示,目前国内对多模态理解和多模态生成模型的评估还处于早期阶段。 评估方法、评估标准体系、评估技术将随着大模型的发展速度不断迭代。 本次评估结果仅代表当前情况。
“多式联运模式的发展还处于非常早期的阶段,还不能代表中美多式联运模式之间的真正差距。这种差距在短期内很可能会拉大。此外,多式联运模式当前的任务评价还是比较简单,比如只考察图文理解和问答,文森图片、文森视频也只是从生成质量的有限维度进行评价。”王忠远说。
对于多模态模型的未来发展,王忠远进一步表示,真正的多模态模型离不开语言模型,未来与语言模型的界限会越来越模糊,最终可能会融合为一个模型,因为人类是多模态理解和生成机制的集合。 这意味着,未来的多式联运模型如果不具备高水平的知识、理解和创造能力,未来可能会被淘汰。 目前文胜图片、文胜视频还停留在审美、图文的层面。 未来我们可能会关注他们的世界模型的能力,即能否捕捉到世界的运行规律,能否真正理解背后的世界。 科学原理、数理逻辑等,因此大型模型的评估也需要快速迭代。
首次大型模型K12科目测试
目前,大型模型的发展已经普及,其逻辑推理能力显着提高,越来越接近人脑的特性。
因此,在北京市海淀区教委的支持下,致远研究院联合海淀区教师进修学校统一学生测试方法,检验大模型与人类学生之间的学科水平差异。 其中,非唯一答案的主观题均由海淀老师亲自测试。 在纸上做标记。
致远评价发现,该模式的学科综合能力与海淀学生的平均水平仍存在差距。 学生普遍存在文强推理弱、图表理解能力不足的情况。 大型模型未来还有很大的改进空间。
北京市海淀区教师进修学校校长姚守梅在解读大模子K12科目考试成绩时指出,在语文、历史等人文学科考试中,大模子缺乏对文化内涵的理解。言语背后,是家国情怀。 当面对历史和地理的综合问题时,该模型无法像人类候选人那样有效地识别主题属性。 与简单的英语问题相比,该模型在复杂的英语问题上表现更好。 在解决科学问题时,模型可能会使用超出年级知识范围的方法来解决问题。 当出现难以理解的测试题时,模型仍然存在明显的“错觉”。
投资界普遍认为,目前AI+核心产业有三个,一是医疗,二是金融,三是游戏。 由于这三个行业的公有域数据量并不大,因此它们都有私域数据,可以基于私有化进行部署。
所以,此次致远与教育机构联合开展了大规模的K12学科模型测试。 您认为大规模教育模式是一条好的赛道吗?
王中原告诉科创板报记者,大模型K12学科测试是为了评价大模型的跨学科能力,并不服务于教育行业。 AI+金融行业考察的是大模特的中文能力,而医疗则需要大模特对数学、化学等学科的理解,而K12则是以上学科的综合。 当K12检查大型模型时,它可以发现它们对哪些行业有潜力。 比如,如果某些模型的数理化能力很强,那么就可以判断它能为材料科学、医疗等行业提供良好的服务。 。
免责声明 ① 本网所刊登文章均来自网络转载;文章观点不代表本网立场,其真实性由作者或稿源方负责 ② 如果您对稿件和图片等有版权及其他争议,请及时与我们联系,我们将核实情况后进行相关删除 ③ 联系邮箱:215858170@qq.com