专访中科院自动化所所长徐波构建紫东太初，打开类人智能的大门产品大全湖北省飘珠科技有限公司

在全球人工智能技术竞速的浪潮中，中国科学院自动化研究所作为国家战略科技力量，始终站在前沿探索与基础创新的高地。由其牵头研发的“紫东太初”大模型，作为全球首个图文音三模态预训练模型，引起了业界的广泛关注。我们有幸专访了自动化所所长徐波研究员，请他深入解读“紫东太初”的诞生、意义与未来。

问：徐所长您好，首先请您为我们介绍一下，“紫东太初”大模型的核心突破是什么？它在全球AI领域处于怎样的位置？

徐波：“紫东太初”的核心突破，在于它首次实现了对视觉、文本、语音三种模态信息的统一建模与高效协同。传统的AI模型往往是单模态或双模态的，比如视觉识别模型处理图像，语音模型处理声音，它们之间是割裂的。“紫东太初”则构建了一个跨模态的统一语义空间，让模型能够真正理解“图文音”背后融合的、完整的语义信息。例如，给它一张图，它不仅能描述画面内容，还能基于理解生成相关的故事或诗歌，甚至用语音演绎出来。

从全球范围看，多模态是迈向通用人工智能（AGI）的必然路径。“紫东太初”作为全球首个三模态大模型，我们在这一方向上实现了从0到1的原创性引领。它不仅仅是参数规模的扩大，更是在认知和学习范式上的一次重要探索，为后续开发更接近人类感知与认知方式的智能体奠定了基础。

问：研发这样的大型基础模型，面临的最大挑战是什么？自动化所是如何组织力量攻克这些难题的？

徐波：挑战是多维度的。首先是科学层面的挑战：如何设计有效的模型架构与训练方法，让三种异构模态的数据能够相互增强、对齐语义，而不是简单拼接，这是一个全新的科学问题。其次是工程与算力挑战：训练需要海量数据和巨量算力，如何高效组织、调度与管理，确保训练过程的稳定与高效。最后是生态挑战：如何让这样一个基础模型真正好用，赋能千行百业，形成开放创新的生态。

面对这些挑战，我们充分发挥了国家战略科技力量建制化、体系化优势。项目集结了所内模式识别、复杂系统、自然语言处理等多个优势团队的骨干力量，并与国内顶尖高校、企业开展了紧密协同。我们坚持“大模型+大平台”的思路，依托武汉人工智能计算中心等国产算力基础设施，实现了全链条自主创新。这是一场有组织的科研攻坚。

问：“紫东太初”的发布，对于我国人工智能基础软件的发展意味着什么？

徐波：意义重大。人工智能基础软件，特别是大模型框架与平台，是智能时代的“操作系统”。过去，我们在这一底层领域存在短板。“紫东太初”的研发，不仅产出了一个先进的模型，更关键的是在此过程中，我们逐步构建起了一整套从底层算力调度、大规模训练框架、多模态数据处理到模型部署应用的技术栈和工具链。这为我国建立自主可控的人工智能基础软件体系积累了核心技术、珍贵数据和宝贵经验。

它标志着我国在AI基础模型领域，从跟随应用走向了源头创新和核心能力建设的新阶段。我们将以“紫东太初”为起点，持续迭代，并积极开源开放部分能力，与学术界、产业界共同夯实我国AI发展的“地基”。

问：您如何展望“紫东太初”所指向的未来？类人智能的大门真的在打开吗？

徐波：“紫东太初”是我们朝向“类人智能”迈出的坚实一步。人类的智能本质上是多模态的，我们通过眼睛看、耳朵听、语言交流来理解和交互世界。三模态大模型让AI向这种融合感知与认知的能力靠拢。大门无疑正在打开，但我们也要清醒认识到，从三模态到更复杂的场景理解、逻辑推理、知识创造乃至拥有价值观，还有漫长的路要走。

下一步，“紫东太初”将向更大规模、更强性能、更优效率演进，并深入重点行业开展应用示范，如智慧医疗、智能创作、人机交互等。我们更期待它能成为一个开放的创新平台，吸引更多开发者在其上探索新方向、创造新应用。

最终目标是推动人工智能从“专用”走向“通用”，从“感知”走向“认知”，让AI不仅能“看”“听”“说”，更能“想”和“创”，以更自然、更智慧的方式造福人类社会。这条路需要全球科学家的共同努力，而中国科学家必将贡献不可或缺的智慧和力量。

专访中科院自动化所所长徐波 构建紫东太初，打开类人智能的大门

专访中科院自动化所所长徐波构建紫东太初，打开类人智能的大门