Model-model DeepSeek, AI Baru Asal China Penantang ChatGPT dan Google Gemini, Manfaatkan Nvidia H800
DeepSeek menjadi salah satu artificial intelligence (AI) yang berasal dari China, memanfaatkan Nvidia H800
Editor: Nafis Abdulhakim
Untuk melatih model-model ini, DeepSeek menggunakan 2.048 unit Nvidia H800 GPU, yang memiliki spesifikasi lebih rendah dibandingkan H100 yang sering digunakan perusahaan AI di AS.
Pelatihan memakan waktu sekitar 2.788 juta jam GPU, dengan biaya total sekitar 5.58 dollar juta AS. Efisiensi ini jauh melampaui model seperti GPT-4o, yang dilatih menggunakan ribuan chip H100 dan investasi puluhan miliar dolar.
Pembatasan ekspor chip oleh AS memaksa Tiongkok menggunakan chip seperti H800 yang memiliki performa lebih rendah. Namun, keterbatasan ini justru mendorong inovasi, seperti penggunaan teknik distillation.
Dengan teknik ini, model AI dilatih untuk fokus pada tugas-tugas spesifik, sehingga lebih efisien dalam hal konsumsi sumber daya, tanpa mengorbankan performa pada tugas tertentu.
Perbandingan biaya dengan model AI AS
Biaya pengembangan DeepSeek menunjukkan efisiensi luar biasa:
- DeepSeek-R1: Dilatih dalam waktu sekitar dua bulan dengan biaya sekitar 6 juta dollar AS atau sekitar Rp 97 milliar.
- GPT-4: Dilatih dengan biaya hingga 63 juta dollar AS atau sekitar Rp 1 triliun, menggunakan infrastruktur GPU yang jauh lebih mahal dan sumber daya lebih besar.
Meski menggunakan chip H800 yang lebih murah dan performanya dipangkas dibandingkan H100, DeepSeek berhasil mencapai kinerja yang sebanding atau lebih baik pada beberapa tolok ukur.
Ini menunjukkan bahwa efisiensi arsitektur dan teknik pelatihan dapat menjadi keunggulan kompetitif yang signifikan.
DeepSeek mengklaim kinerja yang unggul dibanding model-model AI terkenal lainnya pada sejumlah tolok ukur (benchmarks):
- DROP (3-shot F1): DeepSeek-V3 mencetak 91,6 poin, mengungguli Llama 3.1 (88,7), Claude 3.5 (88,3), dan GPT-4o (83,7).
- MATH-500: DeepSeek-V3 mencetak 90,2 poin, lebih tinggi dari Claude 3.5 (78,3) dan GPT-4o (74,6).
- AIME 2024: DeepSeek-V3 mencapai skor 39,2, jauh di atas Llama 3.1 (23,3) dan GPT-4o (9,3).
DeepSeek juga mengklaim bahwa DeepSeek-R1 mampu menyaingi dan bahkan melampaui OpenAI O1 di beberapa benchmark, termasuk dalam tes pemahaman konteks dan pemecahan masalah matematika.
Sumber: Kompas.com
| VinFast Pabrik Apa? Viral Didemo Padahal Baru Sehari Buka di Subang, Jawa Barat |
|
|---|
| Roblox Down! Ini Penyebab dan Solusinya, Ini Hal-hal yang Sebaiknya Tidak Dilakukan Pengguna! |
|
|---|
| Laptop Panas Terus? Simak Cara Aman Agar Tidak Perlu Ganti Baru |
|
|---|
| Instagram Rings, Fitur Baru IG Hadir untuk Para Konten Kreator, Apa Fungsi dan Kelebihannya? |
|
|---|
| Daftar Prompt Gemini AI, Edit Foto Pribadi Seperti Sedang Traveling Sendiri, Ini Cara Buatnya |
|
|---|
:quality(30):format(webp):focal(0.5x0.5:0.5x0.5)/trends/foto/bank/originals/Deepseek-AI.jpg)