多模态CoT思维链架构亮相:厦大&腾讯优图开源创新技术
厦门大学与腾讯优图团队联合推出了一种名为“领唱员”(Cantor)的新型多模态思维链架构,该架构已开源并上传至arXiv。Cantor通过让多模态大语言模型或大语言模型处理视觉和文本上下文,实现了...
8月24日AI资讯:文心大模型日调用量超6亿,美图秀秀进入全球消费级AI移动应用TOP 50
8月24日,AI领域迎来多项重要进展:文心大模型的日调用量超过6亿次,半年增长超10倍;美图秀秀成功进入全球消费级AI移动应用TOP 50榜单。
LLaVA-o1:首个能够进行自发、系统推理的视觉语言模型,类似于 GPT-o1
本文介绍了LLaVA-o1,这是首个能够进行自发和系统推理的视觉语言模型。与GPT-o1类似,LLaVA-o1在多模态任务中表现出色,为人工智能和自然语言处理领域带来了新的突破。






