一、AI大模型简介
2022年11月30日,OpenAI公司发布了GPT3.5模型,同时对外开放了ChatGPT产品。人工智能突然进入了普通人的生活中,各种AI应用如雨后春笋般出现。
不过,由于大模型研究的成本很高,大部分中小型企业只能望而却步,参与者有限,AI的发展也似乎陷入了瓶颈。
2025年1月20日,位于杭州的DeepSeek公司正式发布了具有划时代意义的DeepSeek-R1模型,该模型在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版,且训练成本仅为 560 万美元,远低于美国科技巨头的数亿美元乃至数十亿美元投入,这一突破彻底震惊了全球科技界。
DeepSeek的出现像是向一潭死水的AI领域投入了一颗巨石,引起了巨大的波澜。特别是其低廉的训练成本,让中小型企业有了参与AI开发的资格。
毫无疑问,接下来各行各业都将进入传统应用AI化、智能化的变革之中。Java更应该成为这场变革的引领者!
要知道,全球有25亿+的Java应用正在运行,超过90的服务端应用都是采用Java语言!传统应用要向AI领域进军,最好的办法一定是使用Java语言。
二、 开放大模型服务
通常发布大模型的官方、大多数的云平台都会提供开放的、公共的大模型服务。大模型官方前面讲过,我们不再赘述,这里我们看一些国内提供大模型服务的云平台:
云平台 - 公司 - 地址
阿里百炼 - 阿里巴巴 - https://bailian.console.aliyun.com
腾讯TI平台 - 腾讯 - https://cloud.tencent.com/product/ti
千帆平台 - 百度 - https://console.bce.baidu.com/qianfan/overview
SiliconCloud - 硅基流动 - https://siliconflow.cn/zh-cn/siliconcloud
火山方舟-火山引擎 - 字节跳动 - https://www.volcengine.com/product/ark
三、大模型与大模型应用
我们熟知的大模型比如GPT、DeepSeek都是生成式模型,顾名思义,根据前文不断生成后文。
不过,模型本身只具备生成后文的能力、基本推理能力。我们平常使用的AI对话产品除了生成和推理,还有会话记忆功能、联网功能等等。这些都是大模型不具备的。
要想让大模型产生记忆,联网等功能,是需要通过额外的程序来实现的,也就是基于大模型开发应用。
所以,我们现在接触的AI对话产品其实都是基于大模型开发的应用,并不是大模型本身,这一点大家千万要区分清楚。
下面我把常见的一些大模型对话产品及其模型的关系给大家罗列一下:
大模型 - 对话产品 - 公司 - 地址
Claude 3.5 - Claude AI - Anthropic - https://claude.ai/chats
DeepSeek-R1 - DeepSeek - 深度求索 - https://www.deepseek.com/
文心大模型3.5 - 文心一言 - 百度 - https://yiyan.baidu.com/
星火3.5 - 讯飞星火 - 科大讯飞 - https://xinghuo.xfyun.cn/desk
Qwen-Max - 通义千问 - 阿里巴巴 - https://tongyi.aliyun.com/qianwen/
Moonshoot - Kimi - 月之暗面 - https://kimi.moonshot.cn/
Yi-Large - 零一万物 - 零一万物 - https://platform.lingyiwanwu.com/