4K+Video+Downloader-AI工具导航 | AI工具大全，国内外AI工具一站式导航网站

言犀

言犀是京东自营智能人机交互平台，助力企业服务数智化转型。以AI技术驱动，从文字、语音到多模态交互，从对话智能到情感智能，聚焦体验、效率与转化，旨在打造新一代智能人机交互平台，面向不同行业和客户场景助力企业服务和营销实现数智化转型升级。在京东内部，言犀早已形成了一套完整的智能客服机制，实现了售前、售中...

penpot

Penpot是一个开源的设计和原型制作工具，它专为团队协作而构建，允许设计师、开发者和产品经理在同一平台上无缝地创建、分享和迭代设计项目。这个平台基于Web，因此它能够在任何操作系统上运行，并为用户提供丰富的功能以提高工作效率和简化工作流程。它的主要应用场景包括线框和模型设计、UX测试和反馈以及团队...

Stable Doodle

Stable Doodle 是一款神器的草图到图像的AI工具。它可以将用户绘制的草图轮廓一键生成精美的图片，利用最新的Stable Diffusion模型对草图进行分析，完成补充细节、填色、优化图片等工作，生成“视觉上令人愉悦”的艺术再现。此外，Stable Doodle还提供了文本提示功能，用户可...

讯飞星火大模型

讯飞星火大模型是由科大讯飞推出的新一代认知智能大模型，拥有跨领域的知识和语言理解能力，能够基于自然对话方式理解与执行任务，提供语言理解、知识问答、逻辑推理、数学题解答、代码理解与编写等多种能力。该模型对标ChatGPT，并在多个领域表现出色，注册免费领取1500万Tokens。讯飞星火大模型在语音识...

DreamTalk

DreamTalk 是一个基于扩散的、以音频驱动的表达性说话头部生成框架，能够跨多种说话风格生成高质量的说话头部视频，由清华大学、阿里巴巴和华中科大共同开发。它的主要功能是通过人工智能技术让人物头像能够说话、唱歌，并保持嘴唇的同步以及模仿表情变化。这一框架能够生成高质量的动画，使人物脸部动作看起来非...

Ferret-UI

Ferret-UI是苹果公司与哥伦比亚大学研究团队联合发布的一个多模态AI大语言模型。它专为增强对移动端用户界面（UI）屏幕的理解而设计，具备引用、定位和推理功能。这个模型能够理解手机屏幕上的内容并执行任务，专注于移动端和用户交互。主要特点包括：指代和定位：能够理解和引用UI屏幕上的特定元素，如图标...

face to sticker

face to sticker是一款在线AI将人脸转换为贴纸的工具，用户可以通过上传包含人脸的图像，然后调整一些参数，如图像的尺寸、生成步数等，来定制生成的贴纸。这些贴纸不仅具有个性化特点，还适用于各种个人创作和社交分享场景，目前免费使用。此外，face to sticker采用了先进的人工智能技术...

百度智能云客悦

百度智能云客悦是百度推出的智能客服平台。其旗下的智能外呼平台是一款集合NLP（自然语言处理）、ASR（自动语音识别）、TTS（语音合成）等人工智能技术，提供公有云服务并支持同时面向多名用户，自动发起外呼通话的智能化产品。这款智能外呼平台具备多种优势，如操作便捷、支持构建外呼机器人、支持会话测试、NL...

Boximator

Boximator是字节跳动推出的一款利用深度学习技术进行视频合成的先进工具。它使用文本提示和额外的盒子约束来生成丰富且可控制的视频运动，从而为用户创造独特的视频场景提供了灵活的运动控制。具体来说，Boximator可以通过文本精准控制生成视频中人物或物体的动作，能生成包含多个角色以及特定类型运动的...

华知大模型

华知大模型是由同方知网与华为合作开发的中华知识大模型。它是一个专注于知识服务与科研行业的全栈自主可控的大模型，旨在覆盖政企文教等多个行业场景，并提供30多项通用能力体系。华知大模型的核心特色能力包括智能写作、学术搜问、AI伴读、标准智能问答、机构业务知识智能问答以及图书馆读者智能服务系统等。此外，华...

MoonShot AI

MoonShot AI（又名“月之暗面AI”）是一家致力于人工智能技术创新的公司，专注于开发和优化大型AI模型。它由创始人杨植麟领导，旨在通过先进的算法和计算能力，突破现有技术的限制。MoonShot AI的核心产品之一是 Kimi Chat，这是一个高级智能助手，能够处理极长的文本输入，提供精准而...

AnimateZero

AnimateZero是腾讯AI团队发布的一款AI视频生成模型，通过改进预训练的视频扩散模型(Video Diffusion Models)，能够更精确地控制视频的外观和运动，实现从静态图像到动态视频的无缝转换。用户可以通过输入文本和图像来生成视频，比如由动漫人物的图片生成的视频，不仅人物动作流畅，...

Yi大模型

Yi大模型是由李开复博士领导的AI公司“零一万物”发布的一款开源的中英双语预训练大模型。这个模型在多个性能指标上取得了国际最佳性能认可，被称为“全球最强开源模型”。Yi-34B模型特别之处在于它拥有全球最长的200K上下文窗口，能够处理40万汉字的超长文本输入，这在语言模型中是非常重要的，因为它对于...

PixArt-Σ

PIXART-Σ是华为推出的图像生成模型，由华为诺亚方舟实验室、大连理工大学和香港大学的研究团队开发。采用Diffusion Transformer (DiT) 架构，可直接生成 4K 分辨率的 AI 图像。用户只需输入一段文字描述就能生成具有4K高分辨率的图像，相较于前身PixArt-α，它提供了...

Moonvalley.ai

Moonvalley.ai是一款功能强大的文本到视频生成式AI模型。它可以从简单的文字描述中生成高清视频和动画，涵盖各种不同的风格，包括超现实视频、动漫以及介于两者之间的所有内容。用户只需提供简要的文字提示，即可创造电影级的视觉效果。该模型主打高清、16:9电影画质，视频质量比大多数其他一代AI视频...

M2UGen

M2UGen是一个由腾讯和新加坡国立大学共同研发的多模态音乐生成模型，它具备音乐生成、理解和编辑的能力。具体来说，M2UGen可以接收文字、图片、视频或音频作为输入，然后生成与之相匹配的音乐。例如，给它一段文字，如诗句或故事，它能够创作出与文字内容相应的音乐；对于图片，它能创作出匹配的音乐，让图片仿...

Animate Anyone

Animate Anyone是一种基于扩散模型打造的可控视频生成框架，通过图文就能制作高质量人类跳舞视频。用户只需上传一张人像，以及一段提示词，就能生成对应的视频，而且改变提示词，生成的人物的背景和身上的衣服也会跟着变化。简单来说就是，一张图、一句话就能让任何人或角色在任何场景里跳舞。用户可以通过多...

PixelDance

PixelDance是由字节跳动开发的一款高动态视频生成模型，它能够根据用户提供的图片和文本描述来生成具有复杂场景和动态效果的视频。这项技术特别在于它结合了图像指令（针对视频片段的首尾帧）和文本指令，使得生成的视频不仅视觉上丰富，而且动作细节丰富，能够展现出高度的动态性。PixelDance提供了两...

BuboGPT

BuboGPT是字节跳动推出的一种先进的大型语言模型（LLM），它具有将文本、图像和音频等多模态输入进行整合的能力，并且具备将回复与视觉对象进行对接的独特功能，可以执行跨模态交互并做到对多模态的细粒度理解。这显示出BuboGPT在对齐或未对齐的任意图像音频数据理解方面有着出色的对话能力。项目地址：h...

Mini-Gemini

Mini-Gemini是一个简单而有效的框架，用于增强多模态视觉语言模型（VLMs），由中国香港中文大学和 SmartMore 的研究人员共同推出。尽管VLMs在促进基本视觉对话和推理方面取得了进展，但与先进的模型如GPT-4和Gemini相比，性能差距仍然存在。Mini-Gemini试图从高分辨率...

<< ···34 35 36 37 38··· 36/216 >>

言犀