职业概况

专注于大语言模型在医疗领域的可靠落地与可解释推理,具备扎实的提示词工程、RAG 优化、AI 安全风控与上下文工程实战经验。擅长将临床逻辑结构化为可执行的 AI 推理流程,构建安全、合规、高准确率的数字医生系统。具备全栈工程能力与产品思维,致力于通过可信 AI 解决高价值临床挑战。

工作经历

提示词工程师

2025.12 - current
华西数字医疗科技有限公司, 中国成都
  • 数字医生赋能 (Digital Doctor Enablement): 主导开发“数字医生智能体”,将电子病历 (EHR) 中的真实医生经验转化为可计算的数字资产。
    • 经验抽取系统:设计 “Visit-Trajectory-Knowledge” 三层经验卡体系以结构化临床逻辑,作为智能体决策的认知核心。
    • 安全与证据控制:实施“可控 RAG” (Controlled RAG) 与严格的证据引用机制,确保医疗建议可追溯、基于事实且无幻觉。
    • PromptOps 基础设施:建立持续评估与版本控制流水线 (PromptOps),在复杂诊断场景中迭代提升智能体的推理准确性。

软件工程师(实习)

2024.05 - 2024.08
Casey's Store Support Center, 美国
  • 独立完成商务整合平台12个应用程序的.NET 8升级项目
  • 使用Postman进行REST API端到端测试,通过ServiceNow管理IT工单
  • 参与网络安全团队的渗透测试和数据防泄漏(DLP)技术实践
  • 初探数据驱动决策机制与企业级数据战略
  • 熟练运用Agile开发方法论,积极参与Scrum会议和软件开发生命周期

研究生助教

2023.01 - 2025.05
爱荷华大学计算机科学系, 美国
  • 协助教授人工智能、数据结构、计算机组织原理,函数编程等核心课程
  • 指导学生掌握Java、C、Python、Haskell等编程语言
  • 负责作业批改、答疑辅导和实验课教学

项目

以下是我曾经独立完成或参与过的项目

医疗AI专家系统 - 开发了一套基于RAG架构的医疗AI系统,整合多模态数据(Excel/影像)实现智能检索与分析。核心MVP在3小时内完成,展现了高效的全栈开发能力。
  • 快速交付:3小时内完成ETL、后端及Streamlit UI的端到端开发。
  • 多模态融合:统一清洗结构化病历与非结构化医学影像数据。
  • 智能功能:集成ChromaDB与Qwen模型,提供复杂语义查询与交互式图表。
技术栈:Python, LangChain, Streamlit, ChromaDB, Qwen-Max/VL
数字医生经验卡系统 - 构建基于 "Visit-Trajectory-Knowledge" 三层架构 的可泛化医生经验卡系统,旨在解决医疗大模型在私有知识应用中的“黑盒”与“幻觉”痛点。
  • 三层架构:从EHR中精准抽取结构化临床切片(VisitCard),聚合生成时序病程轨迹(TrajectoryCard),沉淀可复用医学知识(KnowledgeCard)。
  • 可控RAG:采用代码级Embedding Policy确保索引纯净,融合语义向量与临床特征重排(Clinical Scoring)优化检索。
  • 闭环可解释性:生成端强制执行严格的证据引用机制,实现从诊断建议到原始病历的逐级溯源。
技术栈:LangChain (LCEL), Pydantic (Schema Validation), Milvus (Vector Store), Streamlit (Interactive UI), Python (Async Pipeline), Pytest (Regression Testing)
主动脉瓣关闭不全快速诊断系统(AI医学影像分析) - 基于nnU-Net开发AI影像分析流程,实现CT扫描中主动脉根部和瓣膜的自动分割,优化诊断指标以区分正常与病变病例。
  • 自动分割:利用nnU-Net实现主动脉根部和瓣膜的高精度自动分割,提升主动脉瓣关闭不全检测准确性。
  • 诊断优化:结合XGBoost与临床指标分析,有效区分正常与病变病例。
  • LLM应用:通过微调模型优化LLM在健康领域的应用,增强问题理解和计划生成能力。
技术栈:nnU-Net, XGBoost, ITK, OpenCV, JupyterLab, HPC, DataViewerCartesian
自动语音识别(ASR)系统 - 实现基于连接时序分类(CTC)的深度前馈神经网络,结合动态规划和维特比搜索优化语音流对齐。
  • 核心算法:构建深度前馈神经网络,利用CTC损失函数处理不定长语音序列。
  • 解码优化:采用束搜索(Beam Search)解码与强制对齐策略,显著提升识别准确率。
  • 训练效率:应用动态训练策略优化大规模语音数据集的训练过程。
技术栈:Python, PyTorch, Kaldi, NumPy, JSON
基于CycleGAN的多模态MRI合成 - 复现2D CycleGAN模型,实现T1与T2 MRI模态间的高质量转换,解决跨模态数据稀缺问题。
  • 模型架构:采用PatchGAN判别器和残差生成器,显著提升图像纹理细节与转换质量。
  • 训练优化:结合Adam优化器和指数衰减调度策略,有效解决GAN训练不稳定的问题。
  • 应用价值:实现不同MRI模态间的无监督转换,辅助医学影像分析与数据增强。
技术栈:PyTorch, MONAI, NumPy, Pandas, Matplotlib, Slicer, Horos
Netflix 数据整理、探索分析与元数据增强 - 对Netflix数据集进行全流程数据分析与挖掘,结合外部API丰富数据维度,提炼关键业务洞察。
  • 数据清洗:利用Pandas/NumPy处理缺失值与重复值,建立标准化的数据预处理流程。
  • 可视化洞察:使用Matplotlib/Seaborn/Plotly揭示内容分布、发布趋势及年龄评级关联。
  • 特征增强:集成OMDb API引入外部评分,通过特征工程丰富数据维度,支持高预测性能模型。
技术栈:Python (Pandas/NumPy/Matplotlib/Seaborn/Plotly), OMDb API, Jupyter Notebook

出版物

以下是我在学术研究期间发表的作品,涵盖了计算机科学、音乐创作等领域的研究成果。

  • Path to the Third Pole: for sinfonietta
  • Hongwei Cai
    University of Iowa, Autumn 2023

    技能专长

    深度学习与人工智能 (PyTorch, Scikit-learn, XGBoost, CNN, RNN, Transformers, GANs, LLMs, PEFT, LoRA, RLHF, LangChain, RAG, Prompt Engineering, MCP, NLP, CV)

    数据分析与可视化 (SQL, Pandas, NumPy, MatPlotLib, Seaborn, Plotly, Jupyter Notebook, Excel)

    编程与开发工具 (Python, C#/.NET, C++, Bash, Java, JavaScript, React, HTML/CSS, Git, Docker, CI/CD)

    云计算与DevOps (Aliyun, Azure, AWS)