人工智能前沿播报3

【新模型】
MobileVLM（多模态大模型-美团、浙江大学等）
-专为移动设备设计，可在骁龙888CPU上运行，视觉语言基准测试表现出色
开源地址：https://github.com/Meituan-AutoML/MobileVLM

NExT-Chat（多模态大模型-新加坡国立大学、清华大学）
-引入位置输入和输出的能力，可在对话中指定图像区域、定位物体
开源地址：https://github.com/NExT-ChatV/NExT-Chat

【趣应用】
Anytext（图文融合-阿里巴巴）
-支持多语言视觉文本生成和编辑
体验链接：https://huggingface.co/spaces/modelscope/AnyText

VideoDrafter（视频生成-HiDream）
-生成多场景视频，在视觉质量、内容一致性和用户偏好方面表现优异
项目主页：https://videodrafter.github.io

Image Sculpting（图像编辑-纽约大学、英特尔实验室）
-通过3D几何控制，对图片对象进行精确的编辑
项目主页：https://image-sculpting.github.io

【今日热议】
摩根大通发布DocLLM：用于多模态文档理解的布局感知生成语言模型
https://arxiv.org/abs/2401.00908

安全之巨，创新不止

关注我们

公众号：警训通

联系我们

끸

提交

京ICP备2023026151号-1