寻医问药--基于大语言模型的智能诊断系统
项目简介 随着大数据成为医疗服务的基础,迫切需要为医疗保健领域量身定制有效的自然语言处理解决方案。大型语言模型为在医学上取得重大突破提供了可能性。本项目基于传统的大语言模型,使用真实的医生诊断数据集进行推理和微调出专业化的医学语言大模型。我们通过在在中国本土语言和文化框架内设计和扎根,立足于传统的大语言模型的基础上使用真实的医生诊断数据集进行推理和微调出专业化的医学语言大模型,采用开源大语言模型作为基座,通过冻结预训练的模型参数的方法达到低成本、高性能推理出专业化本地化医学大模型,从而为医疗领域的进一步负责任的发展做出贡献。
开源代码与组件使用情况说明 操作系统 Ubuntu;深度学习库Pytorch;编译环境 Python;模型加载 Transformers;自然语言处理 Datasets;Gradio加载模型Webui;Wandb进行模型训练参数可视化;训练框架LLaMA Factory。
作品安装说明 1,复制代码到文件夹中 2,创建conda虚拟环境:conda create -n xunyiwenyao python=3.10 3,终端输入pip install -e .[metrics] 4,输入CUDA_VISIBLE_DEVICES=0 GRADIO_SERVER_PORT=7860 python src/train_web.py
设计思路 1. 需求分析:确定目标用户群体(如医生、患者、医疗机构);了解用户的具体需求和系统应解决的问题。 2. 数据收集与处理: 收集医疗领域的数据,包括病例、医学文献、诊断报告;清洗和预处理数据,确保数据质量。 3. 模型选择与定制:选择合适的大语言模型作为基础;根据医疗领域的特点定制和优化模型。 4. 知识注入: 向模型注入专业的医疗知识,包括疾病、药物、治疗程序。 5. 多轮对话设计:设计能够进行有效多轮对话的机制,以收集患者的详细信息。 6. 交互界面设计:设计用户友好的交互界面,确保用户能够轻松地与系统交互。 7. 性能评估:使用标准数据集对模型的性能进行评估。 8. 安全性与隐私保护: 确保系统符合数据保护法规,采取加密和匿名化措施。 9. 伦理合规性:确保系统的设计和应用遵循医学伦理标准。 10. 系统集成:将系统与现有的医疗流程和IT基础设施集成。 11. 持续学习与迭代:设计机制使系统能够从新的数据中学习和适应。