企业专供全行业商品级智能体,手机端都能用的AI—PPT工具...
PIXART-Σ是华为推出的图像生成模型,由华为诺亚方舟实验室、大连理工大学和香港大学的研究团队开发。采用Diffusion Transformer (DiT) 架构,可直接生成 4K 分辨率的 AI 图像。用户只需输入一段文字描述就能生成具有4K高分辨率的图像,相较于前身PixArt-α,它提供了...
魔搭ModelScope社区是一个AI模型社区,它汇聚了各领域最先进的机器学习模型,提供模型探索体验、推理、训练、部署和应用的一站式服务。魔搭ModelScope社区的目标是降低AI的应用门槛,让每个人都能够方便地使用和开发AI模型。魔搭ModelScope社区的模型涵盖了视觉、语音、自然语言处理、...
腾讯混元生图是腾讯推出的业内首个集多轮图文多模态对话和工具化编辑图像为一体的AI生图产品。它不仅可以通过自然语言和图像输入,实现文本到图像、图像到文本的生成能力,同时支持多轮对话,并且支持通过唤起精调面板,进一步编辑生成好的图像,使用户能够精准控制生成的内容,为创作、设计、故事生成等场景提供强大而灵...
Adobe Firefly Image 2 是Adobe推出的一款生成式人工智能模型,建立在Firefly图像模型的基础上,专为设计师和创作者提供更强大、更智能的图像生成能力。它通过简单的文字描述,可以生成高质量的图像、文字效果和鲜艳的调色板。Firefly Image 2在创意和质量上带来了重大进...
MagicVideo-V2是字节跳动公司团队开发的一款AI视频生成模型和框架。它通过集成文本到图像(Text-to-Image, T2I)模型、图像到视频(Image-to-Video, I2V)模型、视频到视频(Video to Video, V2V)模型和视频帧插值(Video Frame In...
Etna模型是七火山科技推出的一个文生视频的AIGC模型,它能够根据简短的文本描述生成相应的视频内容。七火山科技发布的Etna文生视频模型支持生成视频时长达到8~15秒,每秒可达60帧,分辨率最高可达4K(3840*2160),画面细腻逼真。该模型采用先进的技术架构,在语言模型和图像模型中插入时空卷...
Boximator是字节跳动推出的一款利用深度学习技术进行视频合成的先进工具。它使用文本提示和额外的盒子约束来生成丰富且可控制的视频运动,从而为用户创造独特的视频场景提供了灵活的运动控制。具体来说,Boximator可以通过文本精准控制生成视频中人物或物体的动作,能生成包含多个角色以及特定类型运动的...
Moonvalley.ai是一款功能强大的文本到视频生成式AI模型。它可以从简单的文字描述中生成高清视频和动画,涵盖各种不同的风格,包括超现实视频、动漫以及介于两者之间的所有内容。用户只需提供简要的文字提示,即可创造电影级的视觉效果。该模型主打高清、16:9电影画质,视频质量比大多数其他一代AI视频...
Animate Anyone是一种基于扩散模型打造的可控视频生成框架,通过图文就能制作高质量人类跳舞视频。用户只需上传一张人像,以及一段提示词,就能生成对应的视频,而且改变提示词,生成的人物的背景和身上的衣服也会跟着变化。简单来说就是,一张图、一句话就能让任何人或角色在任何场景里跳舞。用户可以通过多...
PixelDance是由字节跳动开发的一款高动态视频生成模型,它能够根据用户提供的图片和文本描述来生成具有复杂场景和动态效果的视频。这项技术特别在于它结合了图像指令(针对视频片段的首尾帧)和文本指令,使得生成的视频不仅视觉上丰富,而且动作细节丰富,能够展现出高度的动态性。PixelDance提供了两...
VideoCrafter2是腾讯推出的一个先进的视频生成模型,它借助深度学习技术,致力于提高视频的视觉质量、动态效果以及概念组合,能够根据用户提供的文本描述生成高质量、流畅的视频作品。具体来说,VideoCrafter2的核心功能包括:文本到视频(Text-to-Video):用户只需输入一段描述,...
Harmonai是一个开源生成音频工具,专注于开源的生成音频模型,让每个人都能轻松愉快地进行音乐制作。他们的目标是让音乐制作更加容易和有趣,让每个人都能表达自己的创造力。该公司推出的Dance Diffusion模型是其核心技术之一。该模型利用先进的AI算法,可以生成定制的无限音乐库,为用户提供高品...
M2UGen是一个由腾讯和新加坡国立大学共同研发的多模态音乐生成模型,它具备音乐生成、理解和编辑的能力。具体来说,M2UGen可以接收文字、图片、视频或音频作为输入,然后生成与之相匹配的音乐。例如,给它一段文字,如诗句或故事,它能够创作出与文字内容相应的音乐;对于图片,它能创作出匹配的音乐,让图片仿...
CodeGemma是一个由Google推出的基于Gemma模型构建的开源代码模型系列。它专门设计用于代码生成和理解,提供了强大的代码自动补全和生成功能。它有两个主要的预训练模型:CodeGemma 7B和CodeGemma 2B。其中,7B模型专门用于代码补全和根据代码前缀和/或后缀生成代码,而2...
MiracleVision奇想智能是由美图秀秀公司推出的自研AI视觉大模型。它具备高度的美学导向和图像处理能力,并能广泛应用于多个行业,以提高工作流效率。该模型不仅提供了简单易用的AI视觉创作工具,使用户能够快速进行图像的创作和编辑,还支持多种图像类型和视频效果的生成。MiracleVision(奇...
EduChat是一个教育领域的对话大模型,由华东师范大学计算机科学与技术学院的EduNLP团队研发,旨在为广大老师、学生和家长提供智能教育服务。EduChat可以理解教育场景下多样化的用户问题和需求,实现教、学、考、评、管等各个方面的智能化,协助老师、学生和家长共同成长。EduChat还具备创新的教...
Lumiere是谷歌发布的一个文本到视频扩散模型,于2024年正式发布。这个模型能够直接生成全帧率、低分辨率视频,通过训练海量文本和视频数据,可以将文字描述直接转化为高质量、真实、多样且连贯动作的视频。适用于多种内容创作和视频编辑应用,如图像到视频、视频修复和风格化生成。Lumiere的时空扩散U-...
DeepSpeed是一个由微软开发的开源深度学习优化库,旨在提高大规模模型训练的效率和可扩展性。它通过多种技术手段来加速训练,包括模型并行化、梯度累积、动态精度缩放、本地模式混合精度等。DeepSpeed还提供了一些辅助工具,如分布式训练管理、内存优化和模型压缩等,以帮助开发者更好地管理和优化大规模...
Imagen 3是Google DeepMind开发的最新文生图大模型,于2024年5月14日(美国当地时间)在谷歌的I/O开发者大会上正式发布。它能够根据文本提示生成高质量、高分辨率的图像,具有更好的细节和丰富的光照效果。这个模型支持多种视觉风格,从照片般逼真到油画质感,甚至黏土动画场景。Imag...