专访中科院自动化所所长徐波 构建紫东太初,打开类人智能的大门
在全球人工智能技术竞速的浪潮中,中国科学院自动化研究所作为国家战略科技力量,始终站在前沿探索与基础创新的高地。由其牵头研发的“紫东太初”大模型,作为全球首个图文音三模态预训练模型,引起了业界的广泛关注。我们有幸专访了自动化所所长徐波研究员,请他深入解读“紫东太初”的诞生、意义与未来。
问:徐所长您好,首先请您为我们介绍一下,“紫东太初”大模型的核心突破是什么?它在全球AI领域处于怎样的位置?
徐波:“紫东太初”的核心突破,在于它首次实现了对视觉、文本、语音三种模态信息的统一建模与高效协同。传统的AI模型往往是单模态或双模态的,比如视觉识别模型处理图像,语音模型处理声音,它们之间是割裂的。“紫东太初”则构建了一个跨模态的统一语义空间,让模型能够真正理解“图文音”背后融合的、完整的语义信息。例如,给它一张图,它不仅能描述画面内容,还能基于理解生成相关的故事或诗歌,甚至用语音演绎出来。
从全球范围看,多模态是迈向通用人工智能(AGI)的必然路径。“紫东太初”作为全球首个三模态大模型,我们在这一方向上实现了从0到1的原创性引领。它不仅仅是参数规模的扩大,更是在认知和学习范式上的一次重要探索,为后续开发更接近人类感知与认知方式的智能体奠定了基础。
问:研发这样的大型基础模型,面临的最大挑战是什么?自动化所是如何组织力量攻克这些难题的?
徐波:挑战是多维度的。首先是科学层面的挑战:如何设计有效的模型架构与训练方法,让三种异构模态的数据能够相互增强、对齐语义,而不是简单拼接,这是一个全新的科学问题。其次是工程与算力挑战:训练需要海量数据和巨量算力,如何高效组织、调度与管理,确保训练过程的稳定与高效。最后是生态挑战:如何让这样一个基础模型真正好用,赋能千行百业,形成开放创新的生态。
面对这些挑战,我们充分发挥了国家战略科技力量建制化、体系化优势。项目集结了所内模式识别、复杂系统、自然语言处理等多个优势团队的骨干力量,并与国内顶尖高校、企业开展了紧密协同。我们坚持“大模型+大平台”的思路,依托武汉人工智能计算中心等国产算力基础设施,实现了全链条自主创新。这是一场有组织的科研攻坚。
问:“紫东太初”的发布,对于我国人工智能基础软件的发展意味着什么?
徐波:意义重大。人工智能基础软件,特别是大模型框架与平台,是智能时代的“操作系统”。过去,我们在这一底层领域存在短板。“紫东太初”的研发,不仅产出了一个先进的模型,更关键的是在此过程中,我们逐步构建起了一整套从底层算力调度、大规模训练框架、多模态数据处理到模型部署应用的技术栈和工具链。这为我国建立自主可控的人工智能基础软件体系积累了核心技术、珍贵数据和宝贵经验。
它标志着我国在AI基础模型领域,从跟随应用走向了源头创新和核心能力建设的新阶段。我们将以“紫东太初”为起点,持续迭代,并积极开源开放部分能力,与学术界、产业界共同夯实我国AI发展的“地基”。
问:您如何展望“紫东太初”所指向的未来?类人智能的大门真的在打开吗?
徐波:“紫东太初”是我们朝向“类人智能”迈出的坚实一步。人类的智能本质上是多模态的,我们通过眼睛看、耳朵听、语言交流来理解和交互世界。三模态大模型让AI向这种融合感知与认知的能力靠拢。大门无疑正在打开,但我们也要清醒认识到,从三模态到更复杂的场景理解、逻辑推理、知识创造乃至拥有价值观,还有漫长的路要走。
下一步,“紫东太初”将向更大规模、更强性能、更优效率演进,并深入重点行业开展应用示范,如智慧医疗、智能创作、人机交互等。我们更期待它能成为一个开放的创新平台,吸引更多开发者在其上探索新方向、创造新应用。
最终目标是推动人工智能从“专用”走向“通用”,从“感知”走向“认知”,让AI不仅能“看”“听”“说”,更能“想”和“创”,以更自然、更智慧的方式造福人类社会。这条路需要全球科学家的共同努力,而中国科学家必将贡献不可或缺的智慧和力量。
如若转载,请注明出处:http://www.drmicros.com/product/1.html
更新时间:2026-03-15 11:19:21