Qwen2.5 Tes Online Gratis Lebih Baik Dari Llama3.1 Dan GPT4o

Daftar Isi

Unduhan Tongyi Qianqian Qwen melebihi 40 juta, "menelurkan" lebih dari 50.000 Model anak-anak.

Tanpa basa-basi, mari kita uji dulu Qwen di sini::.

Komputasi awan "Gala Festival Musim Semi" Konferensi Yunqi dibuka, model besar Tongyi Qwen sekali lagi meledakkan seluruh adegan!
Hal-hal bijak yang dilaporkan pada 19 September, Hangzhou, hari ini, Ali Cloud meluncurkan model besar open source terkuat di dunia Qwen2.5-72B, kinerja "cross-measure" melebihi Llama3.1-405B, dan kemudian berada di singgasana model besar open source global.
Berikut ini adalah ringkasan dari hasil pengerjaan proyek ini

Qwen2.5-72B mengungguli Llama-405B dalam banyak tes otoritatif.

Pada saat yang sama, serangkaian besar model Qwen2.5 kemudian bersumber terbuka, termasuk: model bahasa Qwen2.5, model bahasa visual Qwen2-VL-72B, model pemrograman Qwen2.5-Coder, dan model matematika Qwen2.5-Math, dan lain-lain, dengan total kumulatif lebih dari 100 di rak, dan sebagian di antaranya mengejar performa GPT-4o untuk mencetak rekor dunia yang baru.
"It's Crazy Thursday", 'Produk Epik' ...... Dalam beberapa jam sejak dirilis, Qwen2.5 telah memicu hiruk-pikuk diskusi di media sosial di dalam dan luar negeri, dan para pengembang di seluruh dunia telah bergabung dengan tim uji coba.

▲ Qwen2.5 adalah topik hangat di media sosial di dalam dan luar negeri.

Qwen2.5-Math, misalnya, menggabungkan pengenalan visual dengan Qwen2.5-Math. Saat memasukkan tangkapan layar dari pertanyaan pilihan ganda yang mirip secara geometris, Qwen2.5-Math dengan cepat mengenali arti pertanyaan dan memberikan solusi dan jawaban "B" yang benar, yang akurat dan cepat. Keakuratan dan kecepatannya luar biasa.
Ini adalah pertama kalinya saya melihat Qwen2.5-Math di web.

▲ Uji Coba Matematika Qwen2.5

Hanya dalam waktu satu setengah tahun sejak April 2023, Qwen telah berkembang menjadi grup modeling kelas dunia kedua setelah Llama.
Menurut data terbaru yang dirilis oleh Zhou Jingren, CTO AliCloud, pada pertengahan September 2024, jumlah kumulatif unduhan model open source Tongyi Qwen telah melampaui 40 juta, dan lebih dari 50.000 model besar telah diturunkan.

▲ Seri Qwen berasal dari model besar lebih dari 50.000

Apa saja peningkatan performa spesifik dari Qwen 2.5? Apa saja yang menarik dari 100 model open source yang baru? Qwen2.5 adalah yang pertama dari jenisnya di dunia, dan merupakan yang pertama dari jenisnya di Tiongkok.
Alamat blog: https://qwenlm.github.io/blog/qwen2.5/
Alamat proyek: https://huggingface.co/spaces/Qwen/Qwen2.5

▲ Blog Resmi Merilis Klaster Model Aliyun Qwen 2.5

01. Memuncaki daftar global lagi, Qwen2.5 cross-volume Mengejar Llama3.1-405B

Mari kita cermati performa Qwen2.5 secara khusus.
Model Qwen2.5 mendukung panjang konteks hingga 128 ribu, dapat menghasilkan konten hingga 8 ribu, dan mendukung lebih dari 29 bahasa, yang berarti dapat membantu pengguna untuk menulis artikel sepanjang 10 ribu kata.
Tidak hanya itu, berdasarkan pra-pelatihan data token 18T, Qwen2.5 memiliki lebih dari 18% peningkatan kinerja secara keseluruhan dibandingkan dengan Qwen2, dengan lebih banyak pengetahuan dan keterampilan pemrograman dan matematika yang lebih kuat.

▲ CTO AliCloud Zhou Jingren menjelaskan Qwen2.5

Dilaporkan bahwa model andalannya, model Qwen2.5-72B, mendapat nilai setinggi 86,8, 88,2, dan 83,1 pada tolok ukur MMLU-rudex (yang menguji pengetahuan umum), tolok ukur MBPP (yang menguji kemampuan pengkodean), dan tolok ukur MATH (yang menguji kemampuan matematika).
Qwen2.5, dengan 72 miliar parameter, bahkan mengungguli Llama3.1-405B, dengan 405 miliar parameter, "berdasarkan urutan besarnya".
Llama3.1-405B dirilis oleh Meta pada bulan Juli 2024, dan dalam lebih dari 150 set pengujian benchmark, Llama3.1-405B menyamai atau bahkan melampaui model SOTA (terbaik di industri) GPT-4o, yang memicu pernyataan bahwa "model sumber terbuka terkuat adalah model terkuat".
Qwen2.5-72B-Instruct, versi lanjutan dari Qwen2.5, mengungguli Llama3.1-405B di MMLU-redux, MATH, MBPP, LiveCodeBench, Arena-Hard, AlignBench, MT-Bench, MultiPL-E, dan evaluasi otoritatif lainnya. 405B.
Gambar

▲ Situasi evaluasi model Qwen2.5-72B

Qwen2.5 sekali lagi merupakan model open source terkuat di dunia, yang berkontribusi pada tren industri "open source di atas closed source".
Ini adalah AliCloud yang mengikuti seri open source Tongyi Qianqian Qwen2 pada bulan Juni tahun ini, menyusul model open source terkuat saat itu, Llama3-70B, dan kemudian meluncurkan serangkaian versi open source.
Sudah menjadi ritme yang lazim dalam komunitas pengembang AI bahwa setiap raja baru yang muncul akan segera dilampaui oleh versi baru Tongyi.
Setelah Qwen2.5 dibuka pada malam hari tanggal 18 September, banyak pengembang yang sangat bersemangat sehingga mereka tidak tidur dan mencobanya terlebih dahulu.
Saya tidak yakin apakah saya akan bisa melakukan itu.

▲ Pengembang di dalam dan luar negeri mendiskusikan Qwen2.5 dengan hangat

02. Komunitas pemodelan terbesar dalam sejarah dunia
Yang paling penting adalah memiliki pemahaman yang baik tentang apa yang sedang terjadi di dunia dan bagaimana cara kerjanya.

Komunitas pemodelan sumber terbuka Qwen2.5 adalah yang terbesar yang pernah ada.
Zhou Jingren, CTO AliCloud, mengumumkan pada konferensi Yunqi bahwa seri Qwen2.5 memiliki lebih dari 100 model open source yang telah tersedia, yang sepenuhnya beradaptasi dengan kebutuhan para pengembang dan UKM dalam berbagai skenario.
Hal ini menanggapi seruan dari banyak pengembang, yang sudah lama "mendesak" di media sosial utama.

▲ Pengembang di dalam dan luar negeri mendesak lebih banyak Qwen2.5

1, model bahasa: dari 0,5B hingga 72B tujuh ukuran, dari sisi akhir hingga skenario kelas industri cakupan penuh
Qwen2.5 merupakan sumber terbuka dari tujuh model bahasa ukuran, termasuk 0.5B, 1.5B, 3B, 7B, 14B, 32B, dan 72B, yang semuanya telah mencapai hasil SOTA pada trek yang sesuai.
Gambar

Qwen2.5 multi ukuran memenuhi kebutuhan beragam skenario

Dengan kemampuannya yang canggih dalam Natural Language Processing (NLP) dan pemahaman pengkodean, Qwen2.5 dari Alibaba Cloud dirancang untuk menangani berbagai macam aplikasi. Berikut adalah beberapa skenario spesifik di mana Qwen2.5 dapat digunakan:

Layanan Pelanggan yang ditingkatkan: Qwen2.5 dapat digunakan dalam chatbot untuk interaksi yang lebih mirip manusia, secara efektif menjawab pertanyaan pelanggan dan memberikan solusi.
Pembuatan Konten: Model ini dapat membantu menghasilkan artikel, postingan media sosial, dan konten tertulis lainnya, sehingga menghemat waktu bagi para pembuat konten.
Bantuan Pemrograman: Dengan seri Qwen2.5-Coder yang khusus, ini dapat membantu pengembang dengan menyarankan potongan kode, bantuan debugging, dan mengotomatiskan tugas-tugas pengkodean tertentu.
Pendidikan dan Pembelajaran: Qwen2.5 dapat digunakan untuk mengembangkan alat pendidikan seperti platform pembelajaran interaktif yang memberikan penjelasan, menjawab pertanyaan siswa, dan bahkan tugas kelas.
Layanan Penerjemahan: Dengan kemahirannya dalam berbagai bahasa, perusahaan ini dapat menyediakan layanan penerjemahan waktu nyata untuk menjembatani kesenjangan bahasa dalam komunikasi internasional.
Penelitian dan Pengembangan: Dalam penelitian, Qwen2.5 dapat memproses data teks dalam jumlah besar untuk membantu menemukan pola, meringkas temuan, dan menghasilkan laporan.
Bantuan Hukum: Model ini dapat membaca dokumen hukum, mengekstrak informasi yang relevan, dan bahkan membuat draf dokumen hukum dasar, sehingga menghemat waktu bagi para profesional hukum.
Dukungan Layanan Kesehatan: Qwen2.5 dapat digunakan untuk menjawab pertanyaan kesehatan umum, memberikan informasi medis, dan membantu mengelola data pasien.
Pemasaran dan Periklanan: Ini dapat membantu membuat konten pemasaran yang dipersonalisasi, salinan iklan, dan kampanye media sosial yang menargetkan audiens tertentu.
Analisis Data: Qwen2.5 dapat memproses dan menganalisis kumpulan data yang besar untuk memberikan wawasan dan membantu membuat keputusan berdasarkan data.
Pelaporan Otomatis: Model ini dapat menghasilkan laporan dengan memproses data dan informasi di berbagai bidang, yang sangat berguna dalam analisis keuangan dan bisnis.
Pengembangan Game: Qwen2.5 dapat membantu dalam menciptakan dialog dan narasi interaktif untuk karakter video game untuk meningkatkan keterlibatan pemain.
Asisten Virtual: Ini mendorong asisten virtual yang dapat mengelola jadwal, mengatur pengingat, dan memberikan saran yang dipersonalisasi.
Perdagangan elektronik: Qwen2.5 dapat membantu menghasilkan deskripsi produk, menangani pertanyaan pelanggan, dan menciptakan pengalaman berbelanja yang dipersonalisasi.
Dukungan multi-bahasa: Ini dapat digunakan dalam aplikasi global yang memerlukan interaksi multibahasa, seperti layanan pelanggan internasional atau pelokalan konten.

Versi ini membantu para pengembang untuk menyeimbangkan kemampuan model dan biaya, serta beradaptasi dengan berbagai skenario. Sebagai contoh, 3B adalah ukuran emas untuk beradaptasi dengan ponsel dan perangkat sisi akhir lainnya, 32B adalah yang paling diharapkan oleh para pengembang untuk menjadi "raja hemat biaya", dan 72B adalah raja kinerja skenario kelas industri dan kelas penelitian ilmiah.
Alamat blog: https://qwenlm.github.io/zh/blog/qwen2.5-llm/
2 、 Model multi-modal: model visual memahami video 20 menit, model audio-lingual mendukung 8 bahasa
Qwen2-VL-72B, model bahasa visual berskala besar yang sangat dinanti-nantikan, secara resmi bersumber terbuka hari ini.
Qwen2-VL dapat mengenali gambar dengan resolusi dan rasio aspek yang berbeda, memahami video berdurasi lebih dari 20 menit, memiliki kemampuan untuk mengatur kecerdasan visual ponsel dan perangkat, dan melampaui tingkat pemahaman visual GPT-4o.

▲ Model bahasa visual skala besar Qwen2-VL-72B open source

Qwen2-VL-72B menjadi model pemahaman visual open source dengan skor tertinggi dalam evaluasi otoritatif global LMSYS Chatbot Arena Leaderboard.

Qwen2-VL-72B adalah model pemahaman visual open source dengan skor tertinggi.

Model bahasa audio skala besar Qwen2-Audio adalah model sumber terbuka yang dapat memahami suara manusia, musik, dan suara alami, mendukung obrolan suara, analisis pesan audio, dan mendukung lebih dari 8 bahasa dan dialek, dan merupakan pemimpin global dalam indeks evaluasi utama.
Alamat blog: http://qwenlm.github.io/blog/qwen2-vl/
3, model khusus: debut model matematika sumber terbuka paling canggih, mengejar ketinggalan dengan GPT-4o
Qwen2.5-Coder untuk pemrograman dan Qwen2.5-Math untuk matematika juga diumumkan sebagai open source pada Konferensi Cloud Habitat ini.
Diantaranya, Qwen2.5-Math adalah seri model matematika open source yang paling canggih hingga saat ini, kali ini open source 1.5B, 7B, 72B tiga ukuran dan model hadiah matematika Qwen2.5-Math-RM.

▲ Qwen2.5-Matematika sumber terbuka

Model unggulan Qwen2-Math-72B-Instruct mengungguli model-model berpemilik seperti GPT-4o dan Claude 3.5 dalam tugas-tugas hilir yang berhubungan dengan matematika.
Qwen2.5-Coder, yang dilatih hingga 5,5T token data terkait pemrograman, telah menjadi sumber terbuka pada hari yang sama di versi 1.5B dan 7B, dan akan menjadi sumber terbuka di masa mendatang di versi 32B.

▲ Qwen2.5-Coder sumber terbuka

Alamat blog:
https://qwenlm.github.io/zh/blog/qwen2.5-math/
https://qwenlm.github.io/zh/blog/qwen2.5-coder/
Selain itu, perlu disebutkan bahwa Qwen-Max, model andalan Tongyiqianqian, telah sepenuhnya ditingkatkan, mendekati atau bahkan melampaui GPT-4o di lebih dari sepuluh tolok ukur otoritatif, seperti MMLU-Pro, MATH, dll., Dan online di situs web resmi Tongyiqianqian dan Tongyi APP. Pengguna juga dapat memanggil API Qwen-Max melalui AliCloud Hundred Refinement Platform.
Gambar

▲ Qwen-Max mewujudkan peningkatan yang komprehensif

Sejak peluncuran generasi pertama model besar Tongyi Qianqian pada April 2023, AliCloud telah memungkinkan perusahaan Tiongkok untuk menggunakan model besar dengan biaya rendah, yang pada gilirannya mendorong seri Qwen2.5 saat ini menjadi "semakin berguna".
Model seri Qwen2.5 mencakup versi dasar, versi mengikuti perintah, versi kuantitatif, yang diulang dalam skenario dunia nyata.

03. Unduhan Qwen melebihi 40 juta! Lebih dari 50.000 "bayi" telah lahir.

Setelah satu setengah tahun berkembang pesat, Tongyi Qwen telah menjadi grup model kelas dunia kedua setelah Llama.
Zhou Jingren mengumumkan dua set data terbaru untuk mengonfirmasi hal ini:
Pertama, jumlah unduhan model, pada awal September 2024, unduhan kumulatif model open source Tongyi Qianwen telah melebihi 40 juta, yang merupakan hasil dari pengembang dan UKM yang memilih dengan kaki mereka;
Yang kedua adalah jumlah model turunan, pada awal September, jumlah total model asli dan turunan Tongyi melebihi 50.000, nomor dua setelah Llama.

▲ Unduhan kumulatif model sumber terbuka Tongyi Thousand Questions telah melebihi 40 juta

Sejauh ini, "10.000 model dengan sumber yang sama" telah menjadi tren yang signifikan dalam perkembangan industri model besar di Tiongkok.
Apa konsepnya? Sumber terbuka Cina tidak hanya menempati urutan pertama di dunia dalam hal kinerja, tetapi juga dalam hal perluasan ekologi. Komunitas open source, mitra ekologi, dan pengembang di dalam dan luar negeri telah menjadi "air keran" Tongyi Chienqin, yang telah menjadi model besar pertama yang diadopsi oleh banyak perusahaan, dan juga model besar yang paling lama digunakan.
Pada awal Agustus 2023, Aliyun membuka sumber 7 miliar model parameter Tongyi Qwen untuk komersialisasi gratis, dan kemudian Qwen1.5, Qwen2, Qwen2.5 tahun ini dirilis satu demi satu, sehingga pengembang dapat dengan cepat menggunakan model paling canggih pada saat yang sama, untuk mendapatkan kontrol yang lebih besar dan ruang penyetelan, sehingga menjadi pilihan yang lebih disukai oleh lebih banyak perusahaan.
Pada awal Juli, para insinyur dari Hugging Face, komunitas open source terbesar di dunia, telah men-tweet untuk menyatakan bahwa Tongyi adalah model besar yang paling banyak digulung di Tiongkok. Dan melalui AliCloud, Tongyi Big Model telah melayani lebih dari 300.000 pelanggan di berbagai industri. Pada kuartal kedua tahun 2024 yang baru saja berlalu (sesuai dengan kuartal pertama tahun fiskal Alibaba tahun 2025), pendapatan produk terkait AI dari Aliyun merealisasikan pertumbuhan tiga digit.

▲Tongyi Big Model melayani lebih dari 300.000 pelanggan

Apa yang dilakukan Aliyun dengan benar?
Menurut pendapat saya, tidak seperti produsen besar asing Microsoft dan ChatGPT yang mengikat kuat, konvergensi Amazon AWS model tiga pihak untuk melakukan infrastruktur yang mendasarinya, Aliyun mengintegrasikan keunggulan keduanya, pada awalnya, memilih untuk layanan infrastruktur AI dan model besar penelitian mandiri dengan dua tangan.
Berfokus pada model penelitian mandiri, Ali Cloud adalah satu-satunya raksasa cloud di China yang sangat jelas tentang model open source dan keterbukaan, dan tidak berusaha keras untuk melakukan investasi besar dalam terobosan model, kompatibilitas ekologi, layanan pengembang, dll., Untuk membuat model besar Tongyi selangkah demi selangkah ke dalam lingkaran inti kompetisi AI dunia.

04. Kesimpulan: Semua model memiliki Momen DAS Industri asal yang sama

Model sumber terbuka sedang mengejar atau bahkan mengejar model sumber tertutup. Dari Meta Llama-405B pada bulan Juli hingga AliCloud Qwen2.5-72B hari ini, lanskap "semua model dari sumber yang sama" mulai terbentuk. Lonjakan model besar Tongyi Qianqi selama satu setengah tahun telah memungkinkan banyak industri dan perusahaan untuk mewujudkan pendaratan skala AI dengan biaya lebih rendah, dan industri ini memasuki momen titik balik yang baru.

PERTANYAAN YANG SERING DIAJUKAN

T: Apa saja ukuran model berbeda yang tersedia untuk Qwen2.5? J: Qwen2.5 menawarkan serangkaian model dari parameter 0,5B hingga 72B, memberikan opsi untuk berbagai aplikasi dan persyaratan.
T: Bagaimana Qwen2.5 mendukung tugas pemrograman? J: Qwen2.5 mencakup seri khusus yang disebut Qwen2.5-Coder, yang dirancang untuk meningkatkan pembuatan kode, inferensi, dan debugging, dengan dukungan hingga 128 ribu token.
T: Seperti apa data pelatihan untuk Qwen2.5? J: Qwen2.5 telah dilatih sebelumnya pada kumpulan data yang luas yang mencakup hingga 18 triliun token, memastikan pemahaman bahasa yang luas.
T: Apakah Qwen2.5 cocok untuk digunakan dalam pendidikan? J: Ya, kemampuan Qwen2.5 dalam pemrosesan bahasa alami membuatnya cocok untuk alat bantu pendidikan, termasuk platform pembelajaran interaktif.
T: Bagaimana performa Qwen2.5 dalam benchmark dibandingkan dengan model lainnya? J: Qwen2.5 saat ini berada di peringkat ketiga dalam tolok ukur multimodal, mengungguli model seperti Llama3.1 di beberapa area.
T: Bahasa apa saja yang didukung oleh Qwen2.5? J: Qwen2.5 mendukung berbagai bahasa, termasuk namun tidak terbatas pada Python, Java, dan C++.
T: Dapatkah Qwen2.5 menghasilkan kode dalam berbagai bahasa pemrograman? J: Ya, Qwen2.5-Coder mampu menghasilkan kode dalam berbagai bahasa pemrograman, yang memenuhi kebutuhan pengembang yang berbeda.
T: Bagaimana Qwen2.5 menangani konteks yang panjang? J: Qwen2.5 mendukung panjang konteks hingga 32K, yang bermanfaat untuk meningkatkan akurasi penyelesaian kode dan kesimpulan.
T: Apakah Qwen2.5 merupakan sumber terbuka? J: Meskipun versi open source Qwen2.5 belum dirilis, dokumentasi dan contoh-contoh terperinci tersedia di platform seperti GitHub.
T: Apa saja skenario aplikasi dunia nyata untuk Qwen2.5? J: Qwen2.5 dapat digunakan dalam chatbot layanan pelanggan, pembuatan konten, bantuan pemrograman, pendidikan, layanan penerjemahan, bantuan hukum, dukungan perawatan kesehatan, pemasaran, analisis data, pelaporan otomatis, pengembangan game, asisten virtual, e-commerce, dan dukungan multibahasa di berbagai industri.