Огляд DeepSeek

DeepSeek була заснована у 2023 році Лян Веньфеном, співзасновником хедж-фонду High-Flyer, який також є єдиним інвестором компанії. Компанія базується в Ханчжоу та зосереджується на створенні відкритих великих мовних моделей (LLM).

DeepSeek-Coder Моделі

Дата випуску: 2 листопада 2023 року

Типи моделей:

DeepSeek-Coder Base: Попередньо навчені моделі, орієнтовані на завдання кодування.
DeepSeek-Coder Instruct: Моделі, навчені виконувати інструкції, розроблені для кращого розуміння запитів користувачів.

Навчальні дані:

Попереднє навчання на 1,8 трильйона токенів з акцентом на вихідний код (87%), англійську мову, пов'язану з кодом (10%), та китайську мову, не пов'язану з кодом (3%).
Для збільшення довжини контексту з 4K до 16K використано додаткові 200 мільярдів токенів.
2 мільярди токенів інструкційних даних використано для контрольованого донавчання.

DeepSeek-LLM Моделі

Дата випуску: 29 листопада 2023 року

Типи моделей:

Базові моделі: 7 мільярдів параметрів та 67 мільярдів параметрів, орієнтовані на загальні мовні завдання.
Спочатку не було випущено версій, навчених виконувати інструкції.

Навчальні дані:

Навчання на 2 трильйонах токенів, отриманих з дедуплікованих даних Common Crawl.
Мета — перевершити показники продуктивності існуючих моделей, з особливим акцентом на багатомовні можливості та архітектурою, подібною до моделей серії Llama.

DeepSeekMath Моделі

Дата випуску: Квітень 2024 року

Типи моделей:

Базова модель: Орієнтована на математичне міркування.
Інструкційна модель: Навчена для виконання інструкцій, пов'язаних з математичними задачами.
Модель з навчанням з підкріпленням (RL): Розроблена для математичних міркувань з механізмами зворотного зв'язку.

Навчальні дані:

Ініціалізація від попередньо навченої DeepSeek-Coder-Base.
Додаткове навчання на 776 000 математичних задачах для інструкційних моделей.

DeepSeek-V2 Моделі

Дата випуску: Травень 2024 року

Типи моделей:

Базові моделі: DeepSeek-V2 та DeepSeek-V2-Lite.
Чат-моделі: DeepSeek-V2-Chat (SFT) з розширеними можливостями обробки діалогових даних.

Навчальні дані:

Попереднє навчання на 8,1 трильйона токенів з вищою часткою китайських токенів.
Мета — досягнення більшої довжини контексту від 4K до 128K за допомогою YaRN.

DeepSeek-V3 Моделі

Дата випуску: Грудень 2024 року

Типи моделей:

Базова модель: DeepSeek-V3-Base.
Чат-модель: DeepSeek-V3, розроблена для розширених діалогових завдань.

Навчальні дані:

Багатомовне навчання на 14,8 трильйона токенів, з великим акцентом на математику та програмування.
Включено експертні моделі для різноманітних завдань міркування.

DeepSeek-R1 Моделі

Дата випуску: 20 січня 2025 року

Типи моделей:

DeepSeek-R1 та DeepSeek-R1-Zero: Орієнтовані на логічне міркування та математичні завдання з використанням навчання з підкріпленням без контрольованого донавчання.

Особливості:

Спрямовані на вирішення завдань у реальному часі та логічний висновок, з показниками продуктивності, що конкурують з моделями OpenAI.

Можливості DeepSeek

	Бенчмарк (Метрика)	DeepSeek V3	DeepSeek V2.5	Qwen2.5	Llama3.1	Claude-3.5	GPT-4o
	Бенчмарк (Метрика)		0905	72B-Inst	405B-Inst	Sonnet-1022	0513

	Architecture	MoE	MoE	Dense	Dense	-	-

	# Activated Params	37B	21B	72B	405B	-	-

	# Total Params	671B	236B	72B	405B	-	-
English	MMLU (EM)	88.5	80.6	85.3	88.6	88.3	87.2
	MMLU-Redux (EM)	89.1	80.3	85.6	86.2	88.9	88.0
	MMLU-Pro (EM)	75.9	66.2	71.6	73.3	78.0	72.6
	DROP (3-shot F1)	91.6	87.8	76.7	88.7	88.3	83.7
	IF-Eval (Prompt Strict)	86.1	80.6	84.1	86.0	86.5	84.3
	GPQA-Diamond (Pass@1)	59.1	41.3	49.0	51.1	65.0	49.9
	SimpleQA (Correct)	24.9	10.2	9.1	17.1	28.4	38.2
	FRAMES (Acc.)	73.3	65.4	69.8	70.0	72.5	80.5
	LongBench v2 (Acc.)	48.7	35.4	39.4	36.1	41.0	48.1
Code	HumanEval-Mul (Pass@1)	82.6	77.4	77.3	77.2	81.7	80.5
	LiveCodeBench (Pass@1-COT)	40.5	29.2	31.1	28.4	36.3	33.4
	LiveCodeBench (Pass@1)	37.6	28.4	28.7	30.1	32.8	34.2
	Codeforces (Percentile)	51.6	35.6	24.8	25.3	20.3	23.6
	SWE Verified (Resolved)	42.0	22.6	23.8	24.5	50.8	38.8
	Aider-Edit (Acc.)	79.7	71.6	65.4	63.9	84.2	72.9
	Aider-Polyglot (Acc.)	49.6	18.2	7.6	5.8	45.3	16.0
Math	AIME 2024 (Pass@1)	39.2	16.7	23.3	23.3	16.0	9.3
	MATH-500 (EM)	90.2	74.7	80.0	73.8	78.3	74.6
	CNMO 2024 (Pass@1)	43.2	10.8	15.9	6.8	13.1	10.8
Chinese	CLUEWSC (EM)	90.9	90.4	91.4	84.7	85.4	87.9
	C-Eval (EM)	86.5	79.5	86.1	61.5	76.7	76.0
	C-SimpleQA (Correct)	64.1	54.1	48.4	50.4	51.3	59.3

Оцінювання дистильованої моделі

Модель	AIME 2024 pass@1	AIME 2024 cons@64	MATH-500 pass@1	GPQA Diamond pass@1	LiveCode Bench pass@1	CodeForces rating
GPT-4o-0513	9.3	13.4	74.6	49.9	32.9	759
Claude-3.5-Sonnet-1022	16.0	26.7	78.3	65.0	38.9	717
OpenAI-o1-mini	63.6	80.0	90.0	60.0	53.8	1820
QwQ-32B-Preview	50.0	60.0	90.6	54.5	41.9	1316
DeepSeek-R1-Distill-Qwen-1.5B	28.9	52.7	83.9	33.8	16.9	954
DeepSeek-R1-Distill-Qwen-7B	55.5	83.3	92.8	49.1	37.6	1189
DeepSeek-R1-Distill-Qwen-14B	69.7	80.0	93.9	59.1	53.1	1481
DeepSeek-R1-Distill-Qwen-32B	72.6	83.3	94.3	62.1	57.2	1691
DeepSeek-R1-Distill-Llama-8B	50.4	80.0	89.1	49.0	39.6	1205
DeepSeek-R1-Distill-Llama-70B	70.0	86.7	94.5	65.2	57.5	1633