AI人工智能 DISC

随着智慧司法的兴起，智能化方法驱动的智能法律系统可以惠及不同的群体。例如，为法律专业人员减轻文书工作，为普通民众提供法律咨询服务，为法学学生提供学习和考试辅导。

由于法律知识的独特性和司法任务的多样性，之前智慧司法研究方面，主要着眼于为特定任务设计自动化算法，难以满足对司法领域提供支撑性服务的需求，离应用落地有不小的距离。最近，大型语言模型（LLMs）展示出强大的能力在不同的传统任务上，为智能法律系统的进一步发展带来希望。

复旦大学数据智能与社会计算实验室（FudanDISC）发布大语言模型驱动的中文智慧法律系统——DISC-LawLLM。该系统可以面向不同用户群体，提供多样的法律服务。此外，构建了评测基准DISC-Law-Eval，从客观和主观两个方面来评测法律大语言模型，模型在评测中的表现相较现有的法律大模型有明显优势。

课题组同时公开包含30万高质量的监督微调（SFT）数据集——DISC-Law-SFT，模型参数和技术报告也一并开源。

主页地址：

https://law.fudan-disc.com

Github地址：

https://github.com/FudanDISC/DISC-LawLLM

技术报告：

https://arxiv.org/abs/2309.11325

用户有法律方面的疑问时，可以向模型咨询，描述疑问，模型会给出相关的法律规定和解释、推荐的解决方案等。

图1 法律咨询示例

专业法律者和司法机关，可以利用模型完成法律文本摘要、司法事件检测、实体和关系抽取等，减轻文书工作，提高工作效率。

图2 司法文书分析

法律专业的学生在准备司法考试过程中，可以向模型提出问题，帮助巩固法律知识，解答法律考试题。

图3 考试助手示例

在需要外部法条做支撑时，模型会根据问题在知识库中检索相关内容，给出回复。

图4 检索增强场景下的对话

DISC-LawLLM是基于我们构建的高质量数据集DISC-Law-SFT在通用领域中文大模型Baichuan-13B上进行全参指令微调得到的法律大模型。值得注意的是，我们的训练数据和训练方法可以被适配到任何基座大模型之上。

DISC-LawLLM具有三个核心能力：

1. 基础的法律文本处理能力。针对法律文本理解与生成的不同基础能力，包括信息抽取、文本摘要等，我们基于现有的NLP司法任务公开数据和真实世界的法律相关文本进行了微调数据的构建。

2. 法律推理思维能力。针对智慧司法领域任务的需求，我们使用法律三段论这一法官的基本法律推理过程重构了指令数据，有效地提高了模型的法律推理能力。

3. 司法领域知识检索遵循能力。智慧司法领域的问题解决，往往需要依循与问题相关的背景法条或者案例，我们为智能法律处理系统配备了检索增强的模块，加强了系统对于背景知识的检索和遵循能力。

模型的整体框架如图5 所示。

图5 模型在不同的法律场景下服务于不同的用户

数据集DISC-Law-SFT的构造

图6 DISC-Law-SFT的构造

DISC-Law-SFT分为两个子数据集，分别是DISC-Law-SFT-Pair和DISC-Law-SFT-Triplet，前者向LLM中引入了法律推理能力，而后者则有助于提高模型利用外部知识的能力。

表1：DISC-Law-SFT数据集内容介绍

数据来源

DISC-Law-SFT数据集的数据来源于三部分，一是与中国法律相关的NLP司法任务公开数据集，包括法律信息抽取、实体与关系抽取、司法文本摘要、司法考试问答、司法阅读理解、罪名/刑期预测等；二是收集了来自真实世界的法律相关的原始文本，如法律法规、司法案件、裁判文书、司法相关的考试等；三是通用的开源数据集，我们使用了alpaca_gpt4_data_zh和Firefly，这样可以丰富训练集的多样性，减轻模型在SFT训练阶段出现基础能力降级的风险。

指令对构造

对上述一、二来源的数据转换为“输入-输出”指令对后，我们采用以下三种方式对指令数据重构，以提高数据质量。

行为塑造

在法律三段论中，大前提为适用的法律规则，小前提为案件事实，结论为法律判断。这构成了法官的一个基本的法律推理过程。每一个案例都可以通过三段论得出一个明确的结论，如下所述：

大前提：法律规则

小前提：案件事实

结论：法律判断

我们利用GPT-3.5-turbo来完成行为塑造的重构，细化输出，确保每个结论都从一个法律条款和一个案例事实中得出。

知识扩充

对于行为塑造不适用的多项选择题，我们直接使用法律知识扩展输出，以提供

云奕文章网

AI人工智能 DISC

相关推荐：