small 3,
pixtral 12b
Безліміт БЕЗКОШТОВНО
ЩАСЛИВИЙ ЧАС: Mistral: small 3, pixtral 12b
Безліміт БЕЗКОШТОВНО

Огляд DeepSeek

DeepSeek була заснована у 2023 році Лян Веньфеном, співзасновником хедж-фонду High-Flyer, який також є єдиним інвестором компанії. Компанія базується в Ханчжоу та зосереджується на створенні відкритих великих мовних моделей (LLM).


DeepSeek-Coder Моделі

Дата випуску: 2 листопада 2023 року

Типи моделей:

  • DeepSeek-Coder Base: Попередньо навчені моделі, орієнтовані на завдання кодування.
  • DeepSeek-Coder Instruct: Моделі, навчені виконувати інструкції, розроблені для кращого розуміння запитів користувачів.

Навчальні дані:

  • Попереднє навчання на 1,8 трильйона токенів з акцентом на вихідний код (87%), англійську мову, пов'язану з кодом (10%), та китайську мову, не пов'язану з кодом (3%).
  • Для збільшення довжини контексту з 4K до 16K використано додаткові 200 мільярдів токенів.
  • 2 мільярди токенів інструкційних даних використано для контрольованого донавчання.

DeepSeek-LLM Моделі

Дата випуску: 29 листопада 2023 року

Типи моделей:

  • Базові моделі: 7 мільярдів параметрів та 67 мільярдів параметрів, орієнтовані на загальні мовні завдання.
  • Спочатку не було випущено версій, навчених виконувати інструкції.

Навчальні дані:

  • Навчання на 2 трильйонах токенів, отриманих з дедуплікованих даних Common Crawl.
  • Мета — перевершити показники продуктивності існуючих моделей, з особливим акцентом на багатомовні можливості та архітектурою, подібною до моделей серії Llama.

DeepSeekMath Моделі

Дата випуску: Квітень 2024 року

Типи моделей:

  • Базова модель: Орієнтована на математичне міркування.
  • Інструкційна модель: Навчена для виконання інструкцій, пов'язаних з математичними задачами.
  • Модель з навчанням з підкріпленням (RL): Розроблена для математичних міркувань з механізмами зворотного зв'язку.

Навчальні дані:

  • Ініціалізація від попередньо навченої DeepSeek-Coder-Base.
  • Додаткове навчання на 776 000 математичних задачах для інструкційних моделей.

DeepSeek-V2 Моделі

Дата випуску: Травень 2024 року

Типи моделей:

  • Базові моделі: DeepSeek-V2 та DeepSeek-V2-Lite.
  • Чат-моделі: DeepSeek-V2-Chat (SFT) з розширеними можливостями обробки діалогових даних.

Навчальні дані:

  • Попереднє навчання на 8,1 трильйона токенів з вищою часткою китайських токенів.
  • Мета — досягнення більшої довжини контексту від 4K до 128K за допомогою YaRN.

DeepSeek-V3 Моделі

Дата випуску: Грудень 2024 року

Типи моделей:

  • Базова модель: DeepSeek-V3-Base.
  • Чат-модель: DeepSeek-V3, розроблена для розширених діалогових завдань.

Навчальні дані:

  • Багатомовне навчання на 14,8 трильйона токенів, з великим акцентом на математику та програмування.
  • Включено експертні моделі для різноманітних завдань міркування.

DeepSeek-R1 Моделі

Дата випуску: 20 січня 2025 року

Типи моделей:

  • DeepSeek-R1 та DeepSeek-R1-Zero: Орієнтовані на логічне міркування та математичні завдання з використанням навчання з підкріпленням без контрольованого донавчання.

Особливості:

Спрямовані на вирішення завдань у реальному часі та логічний висновок, з показниками продуктивності, що конкурують з моделями OpenAI.


Можливості DeepSeek


Бенчмарк (Метрика) DeepSeek V3 DeepSeek V2.5 Qwen2.5 Llama3.1 Claude-3.5 GPT-4o
0905 72B-Inst 405B-Inst Sonnet-1022 0513
Architecture MoE MoE Dense Dense - -
# Activated Params 37B 21B 72B 405B - -
# Total Params 671B 236B 72B 405B - -
English MMLU (EM) 88.5 80.6 85.3 88.6 88.3 87.2
MMLU-Redux (EM) 89.1 80.3 85.6 86.2 88.9 88.0
MMLU-Pro (EM) 75.9 66.2 71.6 73.3 78.0 72.6
DROP (3-shot F1) 91.6 87.8 76.7 88.7 88.3 83.7
IF-Eval (Prompt Strict) 86.1 80.6 84.1 86.0 86.5 84.3
GPQA-Diamond (Pass@1) 59.1 41.3 49.0 51.1 65.0 49.9
SimpleQA (Correct) 24.9 10.2 9.1 17.1 28.4 38.2
FRAMES (Acc.) 73.3 65.4 69.8 70.0 72.5 80.5
LongBench v2 (Acc.) 48.7 35.4 39.4 36.1 41.0 48.1
Code HumanEval-Mul (Pass@1) 82.6 77.4 77.3 77.2 81.7 80.5
LiveCodeBench (Pass@1-COT) 40.5 29.2 31.1 28.4 36.3 33.4
LiveCodeBench (Pass@1) 37.6 28.4 28.7 30.1 32.8 34.2
Codeforces (Percentile) 51.6 35.6 24.8 25.3 20.3 23.6
SWE Verified (Resolved) 42.0 22.6 23.8 24.5 50.8 38.8
Aider-Edit (Acc.) 79.7 71.6 65.4 63.9 84.2 72.9
Aider-Polyglot (Acc.) 49.6 18.2 7.6 5.8 45.3 16.0
Math AIME 2024 (Pass@1) 39.2 16.7 23.3 23.3 16.0 9.3
MATH-500 (EM) 90.2 74.7 80.0 73.8 78.3 74.6
CNMO 2024 (Pass@1) 43.2 10.8 15.9 6.8 13.1 10.8
Chinese CLUEWSC (EM) 90.9 90.4 91.4 84.7 85.4 87.9
C-Eval (EM) 86.5 79.5 86.1 61.5 76.7 76.0
C-SimpleQA (Correct) 64.1 54.1 48.4 50.4 51.3 59.3

Оцінювання дистильованої моделі


Модель AIME 2024 pass@1 AIME 2024 cons@64 MATH-500 pass@1 GPQA Diamond pass@1 LiveCode Bench pass@1 CodeForces rating
GPT-4o-0513 9.3 13.4 74.6 49.9 32.9 759
Claude-3.5-Sonnet-1022 16.0 26.7 78.3 65.0 38.9 717
OpenAI-o1-mini 63.6 80.0 90.0 60.0 53.8 1820
QwQ-32B-Preview 50.0 60.0 90.6 54.5 41.9 1316
DeepSeek-R1-Distill-Qwen-1.5B 28.9 52.7 83.9 33.8 16.9 954
DeepSeek-R1-Distill-Qwen-7B 55.5 83.3 92.8 49.1 37.6 1189
DeepSeek-R1-Distill-Qwen-14B 69.7 80.0 93.9 59.1 53.1 1481
DeepSeek-R1-Distill-Qwen-32B 72.6 83.3 94.3 62.1 57.2 1691
DeepSeek-R1-Distill-Llama-8B 50.4 80.0 89.1 49.0 39.6 1205
DeepSeek-R1-Distill-Llama-70B 70.0 86.7 94.5 65.2 57.5 1633

Найкращі промпти для DeepSeek

Промпт: Чи вкраде AI робочі місця в майбутньому?

Промпт: Напиши мені коротке оповідання про світ майбутнього.

Промпт: Які техніки допомагають розвинути пам'ять і концентрацію?

Промпт: Як використовувати AI для покращення профілю в LinkedIn?

Промпт: Які галузі ростуть найшвидше в найближчі 5 років?

Промпт: Які є смішні жарти, згенеровані AI?

Спробуй DeepSeek безкоштовно

Приєднуйся до Cabina.AI і отримай безліч безкоштовних токенів для використання DeepSeek прямо зараз

Спробувати