Огляд DeepSeek
DeepSeek була заснована у 2023 році Лян Веньфеном, співзасновником хедж-фонду High-Flyer, який також є єдиним інвестором компанії. Компанія базується в Ханчжоу та зосереджується на створенні відкритих великих мовних моделей (LLM).
DeepSeek-Coder Моделі
Дата випуску: 2 листопада 2023 року
Типи моделей:
- DeepSeek-Coder Base: Попередньо навчені моделі, орієнтовані на завдання кодування.
- DeepSeek-Coder Instruct: Моделі, навчені виконувати інструкції, розроблені для кращого розуміння запитів користувачів.
Навчальні дані:
- Попереднє навчання на 1,8 трильйона токенів з акцентом на вихідний код (87%), англійську мову, пов'язану з кодом (10%), та китайську мову, не пов'язану з кодом (3%).
- Для збільшення довжини контексту з 4K до 16K використано додаткові 200 мільярдів токенів.
- 2 мільярди токенів інструкційних даних використано для контрольованого донавчання.
DeepSeek-LLM Моделі
Дата випуску: 29 листопада 2023 року
Типи моделей:
- Базові моделі: 7 мільярдів параметрів та 67 мільярдів параметрів, орієнтовані на загальні мовні завдання.
- Спочатку не було випущено версій, навчених виконувати інструкції.
Навчальні дані:
- Навчання на 2 трильйонах токенів, отриманих з дедуплікованих даних Common Crawl.
- Мета — перевершити показники продуктивності існуючих моделей, з особливим акцентом на багатомовні можливості та архітектурою, подібною до моделей серії Llama.
DeepSeekMath Моделі
Дата випуску: Квітень 2024 року
Типи моделей:
- Базова модель: Орієнтована на математичне міркування.
- Інструкційна модель: Навчена для виконання інструкцій, пов'язаних з математичними задачами.
- Модель з навчанням з підкріпленням (RL): Розроблена для математичних міркувань з механізмами зворотного зв'язку.
Навчальні дані:
- Ініціалізація від попередньо навченої DeepSeek-Coder-Base.
- Додаткове навчання на 776 000 математичних задачах для інструкційних моделей.
DeepSeek-V2 Моделі
Дата випуску: Травень 2024 року
Типи моделей:
- Базові моделі: DeepSeek-V2 та DeepSeek-V2-Lite.
- Чат-моделі: DeepSeek-V2-Chat (SFT) з розширеними можливостями обробки діалогових даних.
Навчальні дані:
- Попереднє навчання на 8,1 трильйона токенів з вищою часткою китайських токенів.
- Мета — досягнення більшої довжини контексту від 4K до 128K за допомогою YaRN.
DeepSeek-V3 Моделі
Дата випуску: Грудень 2024 року
Типи моделей:
- Базова модель: DeepSeek-V3-Base.
- Чат-модель: DeepSeek-V3, розроблена для розширених діалогових завдань.
Навчальні дані:
- Багатомовне навчання на 14,8 трильйона токенів, з великим акцентом на математику та програмування.
- Включено експертні моделі для різноманітних завдань міркування.
DeepSeek-R1 Моделі
Дата випуску: 20 січня 2025 року
Типи моделей:
- DeepSeek-R1 та DeepSeek-R1-Zero: Орієнтовані на логічне міркування та математичні завдання з використанням навчання з підкріпленням без контрольованого донавчання.
Особливості:
Спрямовані на вирішення завдань у реальному часі та логічний висновок, з показниками продуктивності, що конкурують з моделями OpenAI.
Можливості DeepSeek
| Бенчмарк (Метрика) | DeepSeek V3 | DeepSeek V2.5 | Qwen2.5 | Llama3.1 | Claude-3.5 | GPT-4o | |
|---|---|---|---|---|---|---|---|
| 0905 | 72B-Inst | 405B-Inst | Sonnet-1022 | 0513 | |||
| Architecture | MoE | MoE | Dense | Dense | - | - | |
| # Activated Params | 37B | 21B | 72B | 405B | - | - | |
| # Total Params | 671B | 236B | 72B | 405B | - | - | |
| English | MMLU (EM) | 88.5 | 80.6 | 85.3 | 88.6 | 88.3 | 87.2 |
| MMLU-Redux (EM) | 89.1 | 80.3 | 85.6 | 86.2 | 88.9 | 88.0 | |
| MMLU-Pro (EM) | 75.9 | 66.2 | 71.6 | 73.3 | 78.0 | 72.6 | |
| DROP (3-shot F1) | 91.6 | 87.8 | 76.7 | 88.7 | 88.3 | 83.7 | |
| IF-Eval (Prompt Strict) | 86.1 | 80.6 | 84.1 | 86.0 | 86.5 | 84.3 | |
| GPQA-Diamond (Pass@1) | 59.1 | 41.3 | 49.0 | 51.1 | 65.0 | 49.9 | |
| SimpleQA (Correct) | 24.9 | 10.2 | 9.1 | 17.1 | 28.4 | 38.2 | |
| FRAMES (Acc.) | 73.3 | 65.4 | 69.8 | 70.0 | 72.5 | 80.5 | |
| LongBench v2 (Acc.) | 48.7 | 35.4 | 39.4 | 36.1 | 41.0 | 48.1 | |
| Code | HumanEval-Mul (Pass@1) | 82.6 | 77.4 | 77.3 | 77.2 | 81.7 | 80.5 |
| LiveCodeBench (Pass@1-COT) | 40.5 | 29.2 | 31.1 | 28.4 | 36.3 | 33.4 | |
| LiveCodeBench (Pass@1) | 37.6 | 28.4 | 28.7 | 30.1 | 32.8 | 34.2 | |
| Codeforces (Percentile) | 51.6 | 35.6 | 24.8 | 25.3 | 20.3 | 23.6 | |
| SWE Verified (Resolved) | 42.0 | 22.6 | 23.8 | 24.5 | 50.8 | 38.8 | |
| Aider-Edit (Acc.) | 79.7 | 71.6 | 65.4 | 63.9 | 84.2 | 72.9 | |
| Aider-Polyglot (Acc.) | 49.6 | 18.2 | 7.6 | 5.8 | 45.3 | 16.0 | |
| Math | AIME 2024 (Pass@1) | 39.2 | 16.7 | 23.3 | 23.3 | 16.0 | 9.3 |
| MATH-500 (EM) | 90.2 | 74.7 | 80.0 | 73.8 | 78.3 | 74.6 | |
| CNMO 2024 (Pass@1) | 43.2 | 10.8 | 15.9 | 6.8 | 13.1 | 10.8 | |
| Chinese | CLUEWSC (EM) | 90.9 | 90.4 | 91.4 | 84.7 | 85.4 | 87.9 |
| C-Eval (EM) | 86.5 | 79.5 | 86.1 | 61.5 | 76.7 | 76.0 | |
| C-SimpleQA (Correct) | 64.1 | 54.1 | 48.4 | 50.4 | 51.3 | 59.3 |
Оцінювання дистильованої моделі
| Модель | AIME 2024 pass@1 | AIME 2024 cons@64 | MATH-500 pass@1 | GPQA Diamond pass@1 | LiveCode Bench pass@1 | CodeForces rating |
|---|---|---|---|---|---|---|
| GPT-4o-0513 | 9.3 | 13.4 | 74.6 | 49.9 | 32.9 | 759 |
| Claude-3.5-Sonnet-1022 | 16.0 | 26.7 | 78.3 | 65.0 | 38.9 | 717 |
| OpenAI-o1-mini | 63.6 | 80.0 | 90.0 | 60.0 | 53.8 | 1820 |
| QwQ-32B-Preview | 50.0 | 60.0 | 90.6 | 54.5 | 41.9 | 1316 |
| DeepSeek-R1-Distill-Qwen-1.5B | 28.9 | 52.7 | 83.9 | 33.8 | 16.9 | 954 |
| DeepSeek-R1-Distill-Qwen-7B | 55.5 | 83.3 | 92.8 | 49.1 | 37.6 | 1189 |
| DeepSeek-R1-Distill-Qwen-14B | 69.7 | 80.0 | 93.9 | 59.1 | 53.1 | 1481 |
| DeepSeek-R1-Distill-Qwen-32B | 72.6 | 83.3 | 94.3 | 62.1 | 57.2 | 1691 |
| DeepSeek-R1-Distill-Llama-8B | 50.4 | 80.0 | 89.1 | 49.0 | 39.6 | 1205 |
| DeepSeek-R1-Distill-Llama-70B | 70.0 | 86.7 | 94.5 | 65.2 | 57.5 | 1633 |
Найкращі промпти для DeepSeek






Спробуй DeepSeek безкоштовно
Приєднуйся до Cabina.AI і отримай безліч безкоштовних токенів для використання DeepSeek прямо зараз
Qwen
Gemini