文章详细内容

DeepSeek回答，如何在本地部署模型？

准备环境、下载模型、配置推理代码，并运行服务

三妹书屋(https://www.ucrack.top/)2025年04月15日讯息：

要在本地部署 DeepSeek 模型，通常需要以下步骤：准备环境、下载模型、配置推理代码，并运行服务。以下是详细指南：

1. DeepSeek本地部署环境准备

确保本地机器满足以下要求：
操作系统：

Linux（推荐 Ubuntu 20.04+）或 Windows（需额外配置）。
Python：3.8 或更高版本。

GPU（可选）：如果使用 GPU 加速，需安装 CUDA 和 cuDNN（推荐 CUDA 11.x）。

依赖库：安装必要的 Python 库。

本地部署安装依赖

pip install torch transformers flask

`torch`：PyTorch 深度学习框架。
`transformers`：Hugging Face 提供的预训练模型库。
`flask`：用于部署 Web 服务（可选）。

2. 本地部署下载 DeepSeek 模型

DeepSeek 模型可能是一个基于 Transformer 的预训练模型（如 GPT、BERT 等）。你可以从 Hugging Face 模型库或其他来源下载。

从 Hugging Face 下载

from transformers import AutoModelForCausalLM, AutoTokenizer

# 下载模型和分词器
model_name = "deepseek-ai/deepseek- model" # 替换为实际模型名称
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

# 保存到本地
model.save_pretrained("./deepseek_model")
tokenizer.save_pretrained("./deepseek_tokenizer")

3. 配置推理代码

编写一个简单的 Python 脚本，加载模型并进行推理。

示例代码：

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

加载本地模型和分词器

model_path = "./deepseek_model"
tokenizer_path = "./deepseek_tokenizer"
tokenizer = AutoTokenizer.from_pretrained (tokenizer_path)
model = AutoModelForCausalLM.from_pretrained (model_path)

推理函数

def generate_text(prompt, max_length=50):
    inputs = tokenizer(prompt, return_tensors="pt")
    outputs = model.generate(inputs["input_ids"], max_length=max_length)
    return tokenizer.decode(outputs[0], skip_special_tokens=True)

测试

prompt = "你好，DeepSeek！"
response = generate_text(prompt)

print(response)

4. 部署为本地服务

如果需要将模型部署为 Web 服务，可以使用 Flask。

Flask 服务代码

from flask import Flask, request, jsonify
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

app = Flask(__name__)

加载模型和分词器

model_path = "./deepseek_model"
tokenizer_path = "./deepseek_tokenizer"
tokenizer = AutoTokenizer.from_pretrained (tokenizer_path)
model = AutoModelForCausalLM.from_pretrained (model_path)

@app.route("/generate", methods=["POST"])
def generate():
data = request.json

prompt = data.get("prompt", "")

max_length = data.get("max_length", 50)

inputs = tokenizer(prompt, return_tensors="pt")

outputs = model.generate(inputs["input_ids"], max_length=max_length)

response = tokenizer.decode(outputs[0], skip_special_tokens=True)

return jsonify({"response": response})

if __name__ == "__main__":

app.run(host="0.0.0.0", port=5000)