复旦眸思 (MouSi)是由复旦大学语言与视觉团队联合提出基于多视觉专家混合架构的视觉 - 语言大模型,旨在通过人工智能技术帮助视觉障碍者更好地感知周围世界。MouSi基于多视觉专家混合架构,擅长图文匹配、光学字符识别(OCR)和图像分割等多种经典视觉任务,显著提高了多模态大模型在多模态对话中的表现效果。
应用场景和功能
MouSi的核心应用是“听见世界”APP,该应用通过摄像头和耳机,将视觉画面转化为语言描述,帮助视障者出行和生活。
- 街道行走模式:扫描道路情况,提示红绿灯、十字路口和障碍物,确保视障者安全通行。
- 自由问答模式:在博物馆、艺术馆、公园等场所,捕捉四周景象细节,用声音构建丰富的生活场景。
- 寻物模式:帮助视障者轻松寻找日常物件,如移动的手杖、牛奶等。
技术优势
- 多模态理解:具备视觉感知、理解和逻辑推理能力,能够从图像生成文本。
- 跨模态生成能力:能够将图像内容转化为语言描述,适用于广泛的场景。
- 定制化服务:针对企业特定需求,复旦眸思多模态大模型可以提供定制化服务,满足不同用户的需求。

复旦眸思 - 复旦大学自然语言处理实验室研发的多模态大模型
数据统计
数据评估
关于复旦眸思特别声明
本站1001导航提供的复旦眸思都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由1001导航实际控制,在2025-06-04 21:17收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,1001导航不承担任何责任。
相关导航
暂无评论...