介绍
“Data+AI”数据智能实验室由南方科技大学统计与数据科学系与北京滴普科技公司联合建设,旨在探索和研究大模型在AI Agent智能体优化实践中的关键技术与应用。实验室以解决领域模型在微调工程最佳实践、大模型的可控安全等核心问题为目标,致力于推动大模型技术的产业落地,促进科技创新成果转化,并加速产学研的深度融合。
实验室拥有先进的研究设施和技术团队,具备强大的研发实力和创新能力。通过大模型横向课题研究、技术社区共建、教学实践等方式,实验室不断开展深入研究,挖掘大模型的业务价值,为相关领域的发展提供有力支持。
研究方向:
实验室将致力于优化大模型在AI Agent智能体中的应用,以提高其性能和效率,同时确保其在实际场景中的稳定性和可靠性。
本课题计划设计优化基于开源大模型的DataAgent模型。针对滴普科技公司实际用户需求,研发实现数据洞察的自动生成。用户通过自然语言表达数据检索、数据分析的需求,DataAgent利用大模型优秀的代码知识、逻辑推理、工具调用等能力实现自动化生成。
随着大模型在各领域的广泛应用,其安全性问题也日益凸显。实验室将研究如何确保大模型在运行过程中的可控性和安全性,防止潜在的风险和威胁。
本项目旨在确保大语言模型的输出内容符合法律法规与社会主义价值观。目标是通过提升模型的安全性和对社会规范的遵循,减少模型落地时的风险。具体目标包括:拒绝违法、带有政治倾向或反社会规范的输入;防止非显式漏洞导致的恶意提问错误输出;在中文数据中展现出良好效果;方法设计应兼容不同的大型语言模型或微调算法。
模型训练和微调过程中,选用的数据集质量对模型的性能有着至关重要的影响,这一环节占据了模型开发周期中50%以上的工作量,是决定模型训练效果的关键因素之一。合作双方在“数据集挑选与标注”方向上积极配合,采用综合方法筛选和构建既高质量又具备多样性的数据集。包括初步筛选、数据标注、审核与质量控制等多个环节,同时采用自动化工具辅助人工标注的方式提升数据集的质量。