|网创项目|AI视频|AI语音|AI文字工具收录
ARC实验室

ARC实验室

je50652025-11-08
腾讯 ARC 实验室在 AI 领域具备多种功能,涵盖图像、视频、音频等多个方面,具体如下:
  • 图像处理功能

    • 人像修复:可以将模糊不清的老照片或压缩后变糊的照片处理得更加清晰,还原人像的细节。

    • 人像抠图:能够精准地抠出人像,无需手动细致操作,实现一键抠图,提高了图像处理的效率。

    • 动漫增强:针对动漫图像进行超分辨率重建,增强线条清晰度、色彩饱和度和细节表现,有三种模型可供选择,可应用于修复经典动漫老片、为同人创作提供高清素材、优化游戏立绘等场景。

    • 万物识别:可自动识别图片中的物体类别、位置及语义信息,并生成结构化标签,提供 “YOLO-World-X-1280” 和 “物种之眼” 两种模型,适用于摄影后期自动标注素材、电商产品图智能分类等场景。

    • 多模态理解与生成:打通了文本与图像、动态生成的桥梁,用户通过自然语言指令驱动系统生成连贯动画,并实时更新角色状态,可用于实现跨动漫 IP 角色联动、动态游戏原型开发等。

    • PhotoMaker:这是腾讯 ARC 实验室联合南开大学发布的项目,通过输入一张或多张人脸照片和文本描述,数秒内即可生成高质量的真实照片、绘画风格图像或漫画风头像,且无需额外训练,支持多种风格自由切换,兼容 ControlNet 等多种插件。

  • 视频生成功能:腾讯 ARC 实验室与南洋理工大学联合研发的 Rolling Forcing 技术,实现了单 GPU 上 4K 视频实时生成,通过滚动窗口联合降噪、Attention Sink 机制和高效蒸馏训练算法,在视频生成中保持了高保真度和长期一致性,可应用于游戏实时渲染等场景。

  • 音频处理功能:腾讯 ARC 实验室的 AudioStory 技术,能将用户输入的文本描述拆解成一系列有条理的音频事件,并生成完整的电影级声效场景,可用于影视配音、智能播客、有声书、沉浸式游戏音效等领域。


文章下方广告位

猜你喜欢