微软的一项新AI项目旨在自动为文档和电子邮件中的图像添加字幕,以便视觉障碍软件读取图像。
微软的研究人员在有关预印本存储库arXiv的论文中解释了他们的机器学习模型的原理。
该模型使用可视语音词汇预训练(VIVO),它利用大量成对的图像标签数据来学习视觉词汇。然后,使用带有适当字幕的图像的第二个数据以帮助教AI如何最好地描述图片。
“理想情况下,每个人都应在文档,网络,社交媒体中为所有图像添加替代文本,因为这可以使盲人访问内容并参与对话。但是,可惜,人们却没有。”微软AI平台小组的软件工程经理Saqib Shaikh说。
总体而言,研究人员希望AI能够提供Microsoft现有字幕系统两倍的性能。
为了对新AI的性能进行基准测试,研究人员将其纳入了“无上限”挑战。在撰写本文时,Microsoft的AI现在在其排行榜上排名第一。
“无上限的挑战实际上是如何描述您在训练数据中没有看到的那些新颖的物体?”微软研究实验室的首席研究经理王丽娟评论道。
希望使用Microsoft自动字幕AI来构建应用程序的开发人员已经可以这样做,因为Azure Cognitive Services的Computer Vision软件包中提供了该功能。
微软令人印象深刻的SeeingAI应用程序将使用新的AI进行更新,该应用程序使用计算机视觉描述视力障碍者的周围环境。
“图像字幕是可以实现广泛服务的核心计算机视觉功能之一,”Azure AI认知服务的CTO黄表示。
黄继续说:“我们AI的这一突破以Azure为平台,以服务于更多客户。” “这不仅是研究上的突破;在Azure上将突破转化为生产所需的时间也是突破。”
改进的自动字幕功能也有望在今年晚些时候在Outlook,Word和PowerPoint中使用。
责任编辑:YYX
-
微软
+关注
关注
4文章
6594浏览量
104054 -
AI
+关注
关注
87文章
30851浏览量
269017
发布评论请先 登录
相关推荐
万里红电子邮件内容保密检查系统的优势
微软新型专利实现电子邮件与聊天工具的无缝切换
微软AI新成果:将不可编辑PDF转化为可编辑文档
微软Office Outlook Lite服务升级,支持短信功能
微软网页版PPT新增语音识别及字幕生成功能
微软中国AI团队或将整体搬迁至美国或澳大利亚
谷歌Gmail将支持Gemini总结电子邮件内容
微软新版Outlook邮件应用提高垃圾邮件防御能力
2024年第一季度电子邮件威胁报告:美国垃圾邮件数量居首,制造业受害较多
微软Windows 11 AI探索者功能揭秘
微软发布金融聊天机器人,定价尚无确切消息
微软为新闻编辑行业推出AI工具
smtp服务器指啥 smtp服务器用于接收邮件吗
微软将在电脑键盘上新增AI键
微软推出Copilot安卓应用 类似ChatGPT功能

评论