Qwen2.5 免费在线测试优于 Llama3.1 和 GPT4o

砺剑奇缘》下载量突破4000万，"催生 "了5万多个儿童Models。

没有 BS，让我们先在这里测试一下 Qwen：

云计算 "春晚 "云栖大会拉开帷幕，砺石奇文大模再次引爆全场！
智东西9月19日杭州报道今天，阿里云推出全球最强开源大机型Qwen2.5-72B，性能 "跨测 "超越Llama3.1-405B，再登全球开源大机型宝座。
该项目工作成果概述如下

在许多权威测试中，Qwen2.5-72B 的性能都优于 Llama-405B。

与此同时，一大批Qwen2.5模型随之开源，包括：语言模型Qwen2.5、视觉语言模型Qwen2-VL-72B、编程模型Qwen2.5-Coder、数学模型Qwen2.5-Math等，累计上架100多个，其中部分性能赶超GPT-4o，创造了新的世界纪录。
"疯狂星期四"，"史诗级产品" ...... 《征途2.5》发布几个小时以来，在国内外社交媒体上掀起了热议，全球各地的开发者也纷纷加入到试玩队伍中。

▲Qwen2.5 是国内外社交媒体上的热门话题。

例如，Qwen2.5-Math 将视觉识别与 Qwen2.5-Math 结合在一起。当输入几何相似选择题的截图时，Qwen2.5-Math 能快速识别题意，并给出正确的解法和答案 "B"，既准确又快速。准确度和速度都令人惊叹。
这是我第一次在网上看到 Qwen2.5-Math。

▲Qwen2.5-数学试验

自 2023 年 4 月以来，在短短一年半的时间里，Qwen 已成长为仅次于 Llama 的世界级模特集团。
阿里云CTO周靖人发布的最新数据显示，截至2024年9月中旬，《通识奇文》开源模型累计下载量已超过4000万次，衍生出5万多个大型模型。

▲Qwen系列得出的大型模型超过50,000个

Qwen 2.5 在性能方面有哪些具体改进？新增的 100 款开源机型有哪些亮点？答：Qwen2.5是全球首款、中国首款开源机型。
博客地址：https://qwenlm.github.io/blog/qwen2.5/
项目地址： https://huggingface.co/spaces/Qwen/Qwen2.5

官方博客发布阿里云 Qwen 2.5 模型集群

01.蝉联全球榜首，Qwen2.5跨卷赶超Llama3.1-405B

让我们具体看看 Qwen2.5 的性能。
Qwen2.5 模型支持高达 128K 的上下文长度，可生成高达 8K 的内容，并支持 29 种以上的语言，这意味着它可以帮助用户撰写 10,000 字的文章。
不仅如此，基于 18T 代币数据的预训练，Qwen2.5 与 Qwen2 相比，在拥有更多知识、更强的编程和数学技能的情况下，整体性能提升超过 18%。

阿里云CTO周靖人讲解Qwen2.5

据悉，旗舰模型 Qwen2.5-72B 模型在 MMLU-rudex 基准（考察常识）、MBPP 基准（考察编码能力）和 MATH 基准（考察数学能力）上的得分分别高达 86.8、88.2 和 83.1。
拥有 720 亿个参数的 Qwen2.5 甚至比拥有 4 050 亿个参数的 Llama3.1-405B "高出几个数量级"。
2024 年 7 月，Meta 公司发布了 Llama3.1-405B，在 150 多个基准测试集中，它与当时的 SOTA（业内最佳）机型 GPT-4o 不相上下，甚至超过了 GPT-4o，引发了 "最强的开源机型就是最强的机型 "的论断。
Qwen2.5 的后续版本 Qwen2.5-72B-Instruct 在 MMLU-redux、MATH、MBPP、LiveCodeBench、Arena-Hard、AlignBench、MT-Bench、MultiPL-E 和其他权威评估中超过了 Llama3.1-405B。405B.
图片

▲Qwen2.5-72B模型评估情况

Qwen2.5 再次成为全球最强的开源模式，为 "开源战胜闭源 "的行业趋势做出了贡献。
这是阿里云继今年6月开源的砺剑Qwen2系列之后，追赶当时最强的开源机型Llama3-70B，又推出的一系列开源版本。
在人工智能开发者群体中，每出现一个新的王者，很快就会被新版本的 "潼宜 "超越，这已经成为一种熟悉的节奏。
9月18日晚，Qwen2.5开放后，很多开发者兴奋得一夜未眠，第一时间试用了Qwen2.5。
我不知道我是否能做到这一点。

▲国内外开发者热议 Qwen2.5

02.世界历史上最大的建模社区
在我们的生活中，有很多事情是我们无法预料的。

Qwen2.5 开放源代码建模社区是有史以来规模最大的。
阿里云首席技术官周靖人在云栖大会上宣布，Qwen2.5系列累计上架100多款开源机型，全面适应开发者和中小企业的各种场景需求。
这响应了许多开发商的呼声，他们在各大社交媒体上 "呼吁 "了很久。

▲国内外开发者呼吁开发更多的 Qwen2.5

1、语言型号：从 0.5B 到 72B 七种尺寸，从终端侧到工业级场景全覆盖
Qwen2.5 开放了七种大小的语言模型，包括 0.5B、1.5B、3B、7B、14B、32B 和 72B，所有这些模型都在相应的轨道上取得了 SOTA 结果。
图片

多种尺寸的 Qwen2.5 可满足不同场景的需求

阿里云 Qwen2.5 在自然语言处理（NLP）和编码理解方面具有先进的能力，可处理广泛的应用。以下是 Qwen2.5 的一些具体应用场景：

强化客户服务： Qwen2.5可用于聊天机器人，实现更像人类的互动，有效回答客户的询问并提供解决方案。
内容创作： 该模型可协助生成文章、社交媒体帖子和其他书面内容，为内容创建者节省时间。
编程协助： 通过专门的 Qwen2.5-Coder 系列，它可以通过建议代码片段、调试帮助和自动执行某些编码任务来帮助开发人员。
教育与学习： Qwen2.5 可用于开发教育工具，如互动学习平台，提供讲解、回答学生问题甚至批改作业。
翻译服务： 由于精通多种语言，它可以提供实时翻译服务，弥补国际交流中的语言差距。
研发： 在研究方面，Qwen2.5 可以处理大量文本数据，协助发现模式、总结研究结果并生成报告。
法律援助： 该模型可以阅读法律文件，提取相关信息，甚至起草基本法律文件，为法律专业人员节省时间。
医疗保健支持： Qwen2.5 可用于回答常见的健康问题、提供医疗信息并协助管理病人数据。
营销与广告： 它可以帮助创建针对特定受众的个性化营销内容、广告文案和社交媒体活动。
数据分析： Qwen2.5 可以处理和分析大型数据集，提供洞察力并帮助做出数据驱动的决策。
自动报告： 该模型可以通过处理各方面的数据和信息来生成报告，尤其适用于财务和业务分析。
游戏开发： Qwen2.5 可协助为视频游戏角色创建交互式对话和叙事，以提高玩家的参与度。
虚拟助理： 它推动虚拟助理管理日程、设置提醒事项并提供个性化建议。
电子商务： Qwen2.5 可帮助生成产品描述、处理客户咨询并创建个性化购物体验。
多语言支持 它可用于需要多语言互动的全球应用，如国际客户服务或内容本地化。

这些版本可以帮助开发者平衡模型能力和成本，适应各种场景。比如，3B 是适应手机等终端设备的黄金尺寸，32B 是开发者最期待的 "性价比之王"，72B 则是工业级和科研级场景的性能之王。
博客地址：https://qwenlm.github.io/zh/blog/qwen2.5-llm/
2、多模式模型：视觉模型可理解 20 分钟的视频，音频语言模型支持 8 种语言
备受期待的大规模视觉语言模型 Qwen2-VL-72B 今天正式开源。
Qwen2-VL 能识别不同分辨率和长宽比的图片，能看懂 20 分钟以上的长视频，能调节手机和设备的视觉智能，视觉理解能力超过 GPT-4o 水平。

大型视觉语言模型 Qwen2-VL-72B 开源

Qwen2-VL-72B 成为全球权威评测 LMSYS Chatbot Arena Leaderboard 中得分最高的开源视觉理解模型。

Qwen2-VL-72B 是得分最高的开源视觉理解模型。

Qwen2-Audio 大规模音频语言模型是一个开源模型，可理解人声、音乐和自然声，支持语音聊天、音频信息分析，支持 8 种以上语言和方言，主流评价指标全球领先。
博客地址：http://qwenlm.github.io/blog/qwen2-vl/
3、特殊模型：最先进的开源数学模型首次亮相，赶超 GPT-4o
用于编程的 Qwen2.5-Coder 和用于数学的 Qwen2.5-Math 也在本次云栖大会上宣布开源。
其中，Qwen2.5-Math 是迄今为止最先进的开源数学模型系列，此次开源了 1.5B、7B、72B 三种大小和数学奖励模型 Qwen2.5-Math-RM。

▲Qwen2.5-数学开放源代码

旗舰机型 Qwen2-Math-72B-Instruct 在数学相关下游任务中的表现优于 GPT-4o 和 Claude 3.5 等专有机型。
Qwen2.5-Coder 在多达 5.5T 代币的编程相关数据上进行了训练，并于同一天开源了 1.5B 和 7B 版本，未来还将开源 32B 版本。

▲ Qwen2.5-Coder 开放源代码

博客地址
https://qwenlm.github.io/zh/blog/qwen2.5-math/
https://qwenlm.github.io/zh/blog/qwen2.5-coder/
此外，值得一提的是，同益百炼旗舰机型Qwen-Max已全面升级，在MMLU-Pro、MATH等十余项权威基准测试中接近甚至超越GPT-4o，并在同益百炼官网和同益APP上线。用户还可通过阿里云百炼平台调用Qwen-Max的API。
图片

▲曲文-麦克斯实现全面升级

自2023年4月发布第一代通证钱柜娱乐老虎机官网大机型以来，阿里云让中国企业能够低成本使用大机型，进而推动今天的Qwen2.5系列 "越用越好用"。
Qwen2.5 系列模型涵盖基本版、指令跟随版和定量版，并在实际场景中不断迭代。

03.Qwen 下载量突破 4000 万！5 万多个 "宝宝 "诞生了。

经过一年半的快速发展，同益启文已成为仅次于骆驼集团的世界级示范集团。
周敬仁公布的两组最新数据证实了这一点：
首先是模型下载量，截至2024年9月初，通证千文的开源模型累计下载量已突破4000万，这是开发者和中小企业用脚投票的结果；
其次是衍生模型的数量，截至 9 月初，通益的原生模型和衍生模型总数已超过 50,000 个，仅次于 Llama。

▲《通识千题》开源模型累计下载量突破 4000 万次

至此，"万款同源 "已成为中国大模型产业发展的重要趋势。
什么概念？中国的开源不仅在性能上位居世界第一，在生态拓展上也是世界第一。开源社区、生态伙伴、海内外开发者成为通益千亿国际qy.966的 "自来水"，通益千亿国际qy.966成为众多企业最先采用的大模式，也是使用时间最长的大模式。
早在2023年8月，阿里云就开源了70亿参数模型的通证Qwen进行免费商业化，随后今年的Qwen1.5、Qwen2、Qwen2.5相继发布，让开发者在快速使用最先进模型的同时，获得更大的控制和调优空间，从而成为更多企业的首选。
7月初，全球最大的开源社区Hugging Face的工程师曾发微博认证，通益是中国卷积最多的大模型。而通过阿里云，同益大模型已经服务了超过30万家各行各业的客户。在刚刚过去的2024年第二季度（对应阿里巴巴2025财年第一季度），阿里云人工智能相关产品收入实现了三位数增长。

▲"通益大模型 "为 30 多万客户提供服务

阿里云做对了什么？
在笔者看来，不同于国外大厂微软与ChatGPT强绑定、亚马逊AWS融合三方模式做底层基础架构，阿里云综合了两者的优势，一开始就选择了AI基础服务和自研大模式两手抓。
专注于自研模型的阿里云，是国内唯一一家坚定明确模型开源开放的云巨头，在模型突破、生态兼容、开发者服务等方面不遗余力地进行巨额投入，让砺石大模型一步步进入世界人工智能竞争的核心圈。

04.结论所有模型的起源相同工业分水岭时刻

开源模型正在赶上甚至赶超闭源模型。从7月Meta的Llama-405B到如今阿里云的Qwen2.5-72B，"万款同源 "的格局正在形成。同源千亿国际qy.966大模型一年半的突飞猛进，让很多行业和企业实现了更低成本的AI规模落地，行业正在进入一个新的分水岭。

常见问题

问：Qwen2.5 有哪些不同的型号尺寸？ 答：Qwen2.5 提供从 0.5B 到 72B 参数的一系列型号，为各种应用和要求提供了选择。
问：Qwen2.5 如何支持编程任务？ 答：Qwen2.5 包含一个名为 Qwen2.5-Coder 的专门系列，旨在增强代码生成、推理和调试，支持多达 128K 标记。
问：Qwen2.5 的训练数据是什么样的？ 答：Qwen2.5 在一个庞大的数据集上进行了预训练，涵盖多达 18 万亿个词库，确保了对语言的广泛理解。
问：Qwen2.5 是否适用于教育领域？ 答：是的，Qwen2.5 的自然语言处理能力使其适用于教育工具，包括互动学习平台。
问：与其他型号相比，Qwen2.5 的基准性能如何？ 答：Qwen2.5 目前在多模式基准测试中排名第三，在多个领域都优于 Llama3.1 等模型。
问：Qwen2.5 支持哪些语言？ 答：Qwen2.5 支持多种语言，包括但不限于 Python、Java 和 C++。
问：Qwen2.5 能否生成多种编程语言的代码？ 答：是的，Qwen2.5-Coder 能够生成各种编程语言的代码，满足不同开发人员的需求。
问：Qwen2.5 如何处理长上下文？ 答：Qwen2.5 支持最大 32K 的上下文长度，这有利于提高代码补全和推理的准确性。
问：Qwen2.5 是否开源？ 答：虽然 Qwen2.5 的开源版本尚未发布，但在 GitHub 等平台上有详细的文档和示例。
问：Qwen2.5 在现实世界中有哪些应用场景？ 答：Qwen2.5 可用于客户服务聊天机器人、内容创建、编程协助、教育、翻译服务、法律援助、医疗保健支持、市场营销、数据分析、自动报告、游戏开发、虚拟助手、电子商务以及各行业的多语言支持。