人工智能前沿播报3


【新模型】
MobileVLM(多模态大模型-美团、浙江大学等)
-专为移动设备设计,可在骁龙888CPU上运行,视觉语言基准测试表现出色
开源地址:https://github.com/Meituan-AutoML/MobileVLM

NExT-Chat(多模态大模型-新加坡国立大学、清华大学)
-引入位置输入和输出的能力,可在对话中指定图像区域、定位物体
开源地址:https://github.com/NExT-ChatV/NExT-Chat

【趣应用】
Anytext(图文融合-阿里巴巴)
-支持多语言视觉文本生成和编辑
体验链接:https://huggingface.co/spaces/modelscope/AnyText

VideoDrafter(视频生成-HiDream)
-生成多场景视频,在视觉质量、内容一致性和用户偏好方面表现优异
项目主页:https://videodrafter.github.io

Image Sculpting(图像编辑-纽约大学、英特尔实验室)
-通过3D几何控制,对图片对象进行精确的编辑
项目主页:https://image-sculpting.github.io

【今日热议】
摩根大通发布DocLLM:用于多模态文档理解的布局感知生成语言模型
https://arxiv.org/abs/2401.00908