Główna
LLM
DeepSeek Online

Przegląd DeepSeek

DeepSeek został założony w 2023 roku przez Liang Wenfenga, współzałożyciela funduszu hedgingowego High-Flyer, który jest także jedynym inwestorem firmy. Firma ma siedzibę w Hangzhou i koncentruje się na tworzeniu otwartych dużych modeli językowych (LLM).

Modele DeepSeek-Coder

Data wydania: 2 listopada 2023 r.

Typy modeli:

DeepSeek-Coder Base: Wstępnie wytrenowane modele przeznaczone do zadań związanych z kodowaniem.
DeepSeek-Coder Instruct: Modele dostrojone do instrukcji, zaprojektowane w celu lepszego rozumienia poleceń użytkownika.

Dane treningowe:

Wstępne trenowanie na 1,8 biliona tokenów, skupiające się na kodzie źródłowym (87%), angielskim związanym z kodem (10%) oraz chińskim niezwiązanym z kodem (3%).
Wstępne trenowanie z długim kontekstem wykorzystało dodatkowe 200 miliardów tokenów, aby wydłużyć długość kontekstu z 4K do 16K.
2 miliardy tokenów danych instruktażowych wykorzystano do nadzorowanego dostrajania.

Modele DeepSeek-LLM

Data wydania: 29 listopada 2023 r.

Typy modeli:

Modele bazowe: 7 miliardów parametrów i 67 miliardów parametrów, skupiające się na ogólnych zadaniach językowych.
Początkowo nie wydano wersji dostrojonych do instrukcji.

Dane treningowe:

Trenowanie na 2 bilionach tokenów pochodzących z odduplikowanych danych Common Crawl.
Zbudowane z myślą o przewyższeniu benchmarków wydajności istniejących modeli, szczególnie podkreślając możliwości wielojęzyczne dzięki architekturze podobnej do modeli z serii Llama.

Modele DeepSeekMath

Data wydania: Kwiecień 2024 r.

Typy modeli:

Model bazowy: Skupiony na rozumowaniu matematycznym.
Model Instruct: Wytrenowany do wykonywania instrukcji związanych konkretnie z problemami matematycznymi.
Model ze wzmacnianiem (RL): Zaprojektowany do rozumowania matematycznego z mechanizmami sprzężenia zwrotnego.

Dane treningowe:

Inicjalizacja z wcześniej wstępnie wytrenowanego DeepSeek-Coder-Base.
Dodatkowe trenowanie obejmowało 776 000 problemów matematycznych dla modeli dostrojonych do instrukcji.

Modele DeepSeek-V2

Data wydania: Maj 2024 r.

Typy modeli:

Modele bazowe: DeepSeek-V2 i DeepSeek-V2-Lite.
Modele czatowe: DeepSeek-V2-Chat (SFT), z zaawansowanymi możliwościami przetwarzania danych konwersacyjnych.

Dane treningowe:

Wstępne trenowanie na 8,1 biliona tokenów z wyższą proporcją tokenów chińskich.
Celem było osiągnięcie dłuższych długości kontekstu od 4K do 128K przy użyciu YaRN.

Modele DeepSeek-V3

Data wydania: Grudzień 2024 r.

Typy modeli:

Model bazowy: DeepSeek-V3-Base.
Model czatowy: DeepSeek-V3, zaprojektowany do zaawansowanych zadań konwersacyjnych.

Dane treningowe:

Wielojęzyczne trenowanie na 14,8 biliona tokenów, z dużym naciskiem na matematykę i programowanie.
Zintegrowano modele eksperckie do różnorodnych zadań rozumowania.

Modele DeepSeek-R1

Data wydania: 20 stycznia 2025 r.

Typy modeli:

DeepSeek-R1 i DeepSeek-R1-Zero: Skupione na logicznym rozumowaniu i zadaniach matematycznych, wykorzystujące uczenie przez wzmacnianie bez nadzorowanego dostrajania.

Cechy:

Przeznaczone do rozwiązywania problemów w czasie rzeczywistym i wnioskowania logicznego, ze wskaźnikami wydajności konkurującymi z modelami OpenAI.

Możliwości DeepSeek

	Benchmark (Metryka)	DeepSeek V3	DeepSeek V2.5	Qwen2.5	Llama3.1	Claude-3.5	GPT-4o
	Benchmark (Metryka)		0905	72B-Inst	405B-Inst	Sonnet-1022	0513

	Architecture	MoE	MoE	Dense	Dense	-	-

	# Activated Params	37B	21B	72B	405B	-	-

	# Total Params	671B	236B	72B	405B	-	-
English	MMLU (EM)	88.5	80.6	85.3	88.6	88.3	87.2
	MMLU-Redux (EM)	89.1	80.3	85.6	86.2	88.9	88.0
	MMLU-Pro (EM)	75.9	66.2	71.6	73.3	78.0	72.6
	DROP (3-shot F1)	91.6	87.8	76.7	88.7	88.3	83.7
	IF-Eval (Prompt Strict)	86.1	80.6	84.1	86.0	86.5	84.3
	GPQA-Diamond (Pass@1)	59.1	41.3	49.0	51.1	65.0	49.9
	SimpleQA (Correct)	24.9	10.2	9.1	17.1	28.4	38.2
	FRAMES (Acc.)	73.3	65.4	69.8	70.0	72.5	80.5
	LongBench v2 (Acc.)	48.7	35.4	39.4	36.1	41.0	48.1
Code	HumanEval-Mul (Pass@1)	82.6	77.4	77.3	77.2	81.7	80.5
	LiveCodeBench (Pass@1-COT)	40.5	29.2	31.1	28.4	36.3	33.4
	LiveCodeBench (Pass@1)	37.6	28.4	28.7	30.1	32.8	34.2
	Codeforces (Percentile)	51.6	35.6	24.8	25.3	20.3	23.6
	SWE Verified (Resolved)	42.0	22.6	23.8	24.5	50.8	38.8
	Aider-Edit (Acc.)	79.7	71.6	65.4	63.9	84.2	72.9
	Aider-Polyglot (Acc.)	49.6	18.2	7.6	5.8	45.3	16.0
Math	AIME 2024 (Pass@1)	39.2	16.7	23.3	23.3	16.0	9.3
	MATH-500 (EM)	90.2	74.7	80.0	73.8	78.3	74.6
	CNMO 2024 (Pass@1)	43.2	10.8	15.9	6.8	13.1	10.8
Chinese	CLUEWSC (EM)	90.9	90.4	91.4	84.7	85.4	87.9
	C-Eval (EM)	86.5	79.5	86.1	61.5	76.7	76.0
	C-SimpleQA (Correct)	64.1	54.1	48.4	50.4	51.3	59.3

Ocena modelu destylowanego

Model	AIME 2024 pass@1	AIME 2024 cons@64	MATH-500 pass@1	GPQA Diamond pass@1	LiveCode Bench pass@1	CodeForces rating
GPT-4o-0513	9.3	13.4	74.6	49.9	32.9	759
Claude-3.5-Sonnet-1022	16.0	26.7	78.3	65.0	38.9	717
OpenAI-o1-mini	63.6	80.0	90.0	60.0	53.8	1820
QwQ-32B-Preview	50.0	60.0	90.6	54.5	41.9	1316
DeepSeek-R1-Distill-Qwen-1.5B	28.9	52.7	83.9	33.8	16.9	954
DeepSeek-R1-Distill-Qwen-7B	55.5	83.3	92.8	49.1	37.6	1189
DeepSeek-R1-Distill-Qwen-14B	69.7	80.0	93.9	59.1	53.1	1481
DeepSeek-R1-Distill-Qwen-32B	72.6	83.3	94.3	62.1	57.2	1691
DeepSeek-R1-Distill-Llama-8B	50.4	80.0	89.1	49.0	39.6	1205
DeepSeek-R1-Distill-Llama-70B	70.0	86.7	94.5	65.2	57.5	1633