Mini-Gemini是一个简单而有效的框架,用于增强多模态视觉语言模型(VLMs),由中国香港中文大学和 SmartMore 的研究人员共同推出。尽管VLMs在促进基本视觉对话和推理方面取得了进展,但与先进的模型如GPT-4和Gemini相比,性能差距仍然存在。Mini-Gemini试图从高分辨率...
盘古大模型 3.0 是一个面向行业的AI大模型系列,旨在提升核心竞争力,协助客户、合作伙伴、开发者在各行业落地人工智能并创造价值。盘古大模型 3.0系列包含自然语言、视觉、多模态、预测、科学计算大模型等五个基础大模型,可以为用户提供知识问答、文案生成、代码生成,以及多模态大模型的图像生成、图像理解等...
知海图AI是知乎与面壁智能合作开发的中文大模型,于2023年4月13日开始内测。它的主要功能是对知乎热榜上的问题回答进行要素抽取、观点梳理和内容聚合,以便用户能够更快、更全面地了解知友们讨论的热点与焦点。知海图AI在特定场景中的表现与GPT-4相当,显示出强大的语言理解和内容总结能力。此外,知海图A...
CrewAI是一个创新的多角色agent框架,专为角色扮演中的AI代理提供自动化设置。它通过促进AI代理之间的合作,使得这些代理能够共同解决复杂问题。CrewAI的核心特征包括角色定制代理、自动任务委派、任务管理灵活性和流程导向。它既可以使用OpenAI的API,也可以通过Ollama使用本地的大模...
天壤小白是一个基于语言大模型的AI应用开发平台,无需代码开发,即可快速、灵活地搭建个性化的AI应用。它可以帮助用户实现知识客服、广告文案、总结摘要、多语言翻译、新闻稿写作、会议提纲等多个场景的AI服务。同时提供了一些AI工具组件,如语义搜索、向量数据库等,以及一些AI场景应用的示例。它是一个专业的A...
Magi 的模型是一个可以自动将漫画页转录成文字并生成剧本。Magi 模型是牛津大学工程科学系的视觉几何组开发的,该模型通过识别漫画页面上的面板、文字块和角色,实现了全自动的剧本生成功能。其主要功能包括面板检测,识别漫画页面上的各个面板,以及文本块检测,识别面板中的文本块,通常包含对话或叙述性文本。...
Evidently Al 是一个开源的机器学习模型监测和测试平台,它可以帮助您分析和改进您的模型性能。它可以让您轻松地创建交互式的可视化报告,展示您的模型在验证和预测期间的表现,以及数据漂移的情况。您可以使用 Evidently 这个开源 Python 库来生成 Evidently Al 大模型所需...
Claude是Anthropic公司发布的一款大型语言模型(LLM)。这种模型基于深度学习技术,通过对海量文本数据进行训练来获得其知识结构,数据包括互联网、书籍、新闻、论文等各种来源的文本。Claude的训练数据来自人工标注的海量中文对话数据,接近数十亿字。Claude能够检测和回避潜在的陷阱,如逻...
MiracleVision奇想智能是由美图秀秀公司推出的自研AI视觉大模型。它具备高度的美学导向和图像处理能力,并能广泛应用于多个行业,以提高工作流效率。该模型不仅提供了简单易用的AI视觉创作工具,使用户能够快速进行图像的创作和编辑,还支持多种图像类型和视频效果的生成。MiracleVision(奇...
讯飞开放平台,一个领先的人工智能技术与生态服务平台,致力于为开发者与企业提供全面的智能交互能力。我们不仅提供语音、图像、自然语言识别等核心交互技术,还拥有丰富的行业解决方案与SaaS产品,助力您轻松构建各类智能应用。讯飞开放平台的功能特色一站式服务:满足多样化的需求,为您节省宝贵的时间与资源。灵活接...
Auto-GPT是一个开源的“AI代理”,它可以根据自然语言的目标,自动地分解成子任务,并利用互联网和其他工具来实现它。它使用OpenAI的GPT-4或GPT-3.5 API,是使用GPT-4进行自主任务的第一个应用程序之一。Auto-GPT可以自动化工作流程,分析数据,提出新的建议,还可以处理文本...
VideoCrafter2是腾讯推出的一个先进的视频生成模型,它借助深度学习技术,致力于提高视频的视觉质量、动态效果以及概念组合,能够根据用户提供的文本描述生成高质量、流畅的视频作品。具体来说,VideoCrafter2的核心功能包括:文本到视频(Text-to-Video):用户只需输入一段描述,...
序列猴子是出门问问自研的一款大语言模型,它以语言为核心的能力体系涵盖了知识、对话、数学、逻辑、推理和规划等六个维度。它可以同时支持文字生成、图片生成、3D内容生成、语音生成和语音识别等不同任务,展现出强大的多模态表达能力。序列猴子的名字来源于数学家埃米尔·波雷尔提出的“无限猴子”定理,意味着它可以通...
妙笔是阿里巴巴最新开源的中文文生图模型,它与经典的Stable Diffusion 1.5版本结构相同,兼容现有的lora、controlnet等主流插件及其权重。妙笔的特点是用户可以直接输入中文进行文生图操作,生成的图像效果逼真。例如,输入“枯藤老树昏鸦,小桥流水人家。水墨画。”,妙笔能够理解诗句...
Grok-1是马斯克旗下AI创企xAI发布的一款开源AI大模型。它是一个混合专家(Mixture-of-Experts,MOE)大模型,旨在用作聊天机器人背后的引擎,用于包括问答、信息检索、创意写作和编码辅助在内的自然语言处理任务。其参数量达到了3140亿,远超OpenAI GPT-3.5的1750...
Mistral AI 是一家来自法国的人工智能服务商,由前 DeepMind 和 Meta 公司的研究人员组建的新公司。他们专注于大型语言模型和生成式人工智能的构建、培训和应用。Mistral AI 的目标是与 OpenAI 和 谷歌 竞争,为企业开发生成式人工智能基础设施。最近,他们开源了全球首个...
Veo 是 Google DeepMind 开发的一种先进的视频生成模型。它能够生成1080p高分辨率、长时长的高质量视频。Veo 支持多种电影和视觉风格,能够准确捕捉文本提示的细微差别,并提供创意控制。这个模型旨在使视频制作更易于访问,并在叙事、教育等领域开启新的可能性。目前,Veo 还没有向公众...
SDXL-Lightning是一款由字节跳动开发的开源免费的文生图开放模型,能根据文本快速生成相应的高分辨率图像。该模型能够在极短的时间内生成高质量和高分辨率的图像,是目前最快的文生图模型之一。通过渐进式对抗式蒸馏,显著提升了图像生成速度,使其可应用于需要快速响应的场景。此外,SDXL-Lightn...
魔搭ModelScope社区是一个AI模型社区,它汇聚了各领域最先进的机器学习模型,提供模型探索体验、推理、训练、部署和应用的一站式服务。魔搭ModelScope社区的目标是降低AI的应用门槛,让每个人都能够方便地使用和开发AI模型。魔搭ModelScope社区的模型涵盖了视觉、语音、自然语言处理、...
CodeGemma是一个由Google推出的基于Gemma模型构建的开源代码模型系列。它专门设计用于代码生成和理解,提供了强大的代码自动补全和生成功能。它有两个主要的预训练模型:CodeGemma 7B和CodeGemma 2B。其中,7B模型专门用于代码补全和根据代码前缀和/或后缀生成代码,而2...