MiniMax发布新型线性模型架构视频、音乐生成模型首次亮相

2024-09-03 11:13
中国网科技

“大模型的核心意义是做更好的信息处理，大部分的信息体现在多模态的内容里面，而不是体现在文字上。”MiniMax创始人闫俊杰如此解释上线视频、音乐生成模型的初衷。

近日，在“2024 MiniMax Link伙伴日”活动上，MiniMax发布了基于MOE(混合专家模型)+ Linear Attention(线性注意力)的新型线性模型架构，并展示了MiniMax最新音乐模型、视频模型的研发成果。

MiniMax新型线性模型架构能在单位时间内更加高效地训练海量数据，极大地提升了模型的实用性和响应速度。在与GPT-4o同一代模型能力对比上，MiniMax的新一代模型处理10万token时效率可提升2-3倍，并且随着长度越长，提升越明显。相比于通用Transformer架构，新架构的原生线性计算复杂度大幅减少了大模型的训练和推理成本。在128K的序列长度下，新架构成本减少90%以上。

据介绍，MiniMax视频模型具有压缩率高、文本响应好和风格多样等优点，可生成原生高分辨率、高帧率视频，模型能力首屈一指。

闫俊杰分析，视频模型与文本模型有着本质区别，前者处理量大，更具复杂性，因此无法应用文本模型所构建的底层基础设施，用于数据处理、清洗以及标注等。视频模型不仅需要升级基础设施，还因为缺少开源的内容，需要投入更多耐心。

MiniMax第一款音乐模型则可以合成纯音乐为制作人快速构建歌曲的基本结构，由歌手自由演绎主唱或和声部分。没有伴奏，音乐模型也可以是实力歌手，清唱作品同样不在话下。值得一提的是，MiniMax语音模型已实现对粤语、日语、韩语、西班牙语等多语种支持的升级。

目前，全球领先的MiniMax音乐生成模型与视频生成模型已经在开放平台和海螺AI网页版上线。此外，abab 7系列模型将于未来数周内正式发布，并采用新一代创新技术。

MiniMax成立于2021年，是一家专注于推动通用人工智能技术突破的科技创业公司，已经获得阿里、腾讯、红杉中国、高瓴创投、IDG资本等机构投资。公司拥有自研多模态通用大模型，此前基于大模型发布了针对企业客户的技术开放平台，和海螺A1、星野等多款C端AI应用产品。

MiniMax所打造的AI内容社区注重内容交互。据统计，MiniMax每日与全球用户进行超30亿次交互，处理超3万亿文本token、2000万张图片和7万小时语音，大模型日处理交互量排名国内AI公司首位。

MiniMax主要通过开放平台和在产品中植入广告实现商业化。“目前最重要的东西还不是商业化，而是真正达到技术可广泛可用的程度。”闫俊杰当下思考更多的还是技术如何提升，以及如何跟用户做更好的共创。

扩展阅读