#推荐
Ⅳ.1 LangChain

2025-02-17 0 200

 

第四部分 使用 LangChain 访问个人数据

在大数据时代,数据价值逐渐凸显,打造定制化、个性化服务,个人数据尤为重要。要开发一个具备较强服务能力、能够充分展现个性化智能的应用程序,大模型与个人数据的对齐是一个重要步骤。作为针对大模型开发应运而生的框架,LangChain 提供了众多结合大模型开发的工具与功能,支持大模型访问个人数据的能力自然必不可少。
在上一部分中,我们讲解了如何基于 LangChain 来实现基本应用程序的开发。通过使用 LangChain 提供的框架与功能,我们可以较为便捷地实现存储、模型链、评估、代理等多样化功能,对接用户的实际需求。在这一部分,我们基于上一部分深入拓展 LangChain 提供的个人数据访问能力,指导开发者如何使用 LangChain 开发能够访问用户个人数据、提供个性化服务的大模型应用。通过学习本部分,您能够进一步掌握 LangChain 框架与大模型开发的进阶能力,为针对生成需要的实际开发奠定基础。
本部分的主要内容包括:加载并切割文档;向量数据库与词向量;检索与问答;聊天等。
目录:
  1. 简介 Introduction @Joye
  2. 加载文档 Document Loading @Joye
  3. 文档切割 Document Splitting @苟晓攀
  4. 向量数据库与词向量 Vectorstores and Embeddings @Puppet、仲泰
  5. 检索 Retrieval @Puppet
  6. 问答 Question Answering @邹雨衡
  7. 聊天 Chat @高立业
  8. 总结 Summary @高立业

第一章 简介

欢迎来到《第四部分:使用 LangChain 访问个人数据》!
本课程基于 LangChain 创始人哈里森·蔡斯 (Harrison Chase)与 Deeplearning.ai 合作开发的 《LangChain Chat With your Data》课程,将介绍如何利用 LangChain 框架,使语言模型访问并应用用户自有数据的强大能力。

一、背景

大语言模型(Large Language Model, LLM), 比如ChatGPT, 可以回答许多不同的问题。但是大语言模型的知识来源于其训练数据集,并没有用户的信息(比如用户的个人数据,公司的自有数据),也没有最新发生时事的信息(在大模型数据训练后发表的文章或者新闻)。因此大模型能给出的答案比较受限。
如果能够让大模型在训练数据集的基础上,利用我们自有数据中的信息来回答我们的问题,那便能够得到更有用的答案。

二、 课程基本内容

LangChain 是用于构建大模型应用程序的开源框架,有 Python 和 JavaScript 两个不同版本的包。它由模块化的组件构成,可单独使用也可链式组合实现端到端应用。
LangChain的组件包括:
  • 提示(Prompts): 使模型执行操作的方式。
  • 模型(Models):大语言模型、对话模型,文本表示模型。目前包含多个模型的集成。
  • 索引(Indexes): 获取数据的方式,可以与模型结合使用。
  • 链(Chains): 端到端功能实现。
  • 代理(Agents): 使用模型作为推理引擎
本课程将介绍使用 LangChain 的典型场景——基于自有数据的对话系统。我们首先学习如何使用 LangChain 的文档加载器 (Document Loader)从不同数据源加载文档。然后,我们学习如何将这些文档切割为具有语意的段落。这步看起来简单,不同的处理可能会影响颇大。接下来,我们讲解语义搜索(Semantic search)与信息检索的方法,获取用户问题相关的参考文档。该方法很简单,但是在某些情况下可能无法使用。我们将分析这些情况并给出解决方案。最后,我们介绍如何使用检索得到的文档,来让大语言模型(LLM)来回答关于文档的问题。
整个流程涵盖数据导入、信息检索与问答生成等关键环节。读者既可以学习各个组件的用法,也可以整体实践构建对话系统的思路。如果你想要先了解关于 LangChain 的基础知识,可以学习《LangChain for LLM Application Development》部分的内容。

总结

让我们快速回顾本部分的主要内容:
  1. 使用 LangChain 的多种文档加载器,从不同源导入各类数据。
  2. 将文档分割为语义完整的文本块,并讨论了其中的一些微妙之处。
  3. 为这些块创建了 Embedding,并将它们放入向量存储器中,并轻松实现语义搜索。
  4. 讨论了语义搜索的一些缺点,以及在某些边缘情况中可能会发生的搜索失败。
  5. 介绍多种高级检索算法,用于克服那些边缘情况。
  6. 与 LLMs 相结合,将检索结果与问题传递给 LLM ,生成对原始问题的答案。
  7. 对对话内容进行了补全,创建了一个完全功能的、端到端的聊天机器人。
通过学习本部分内容,我们已经掌握了如何使用 LangChain 框架,访问私有数据并建立个性化的问答系统。这是一个快速迭代的领域,希望您能持续关注新技术。
期待看到大家将知识应用到实践中,创造更多惊喜。让我们出发,继续探索语言模型和私有数据结合的无限可能!

 

收藏 打赏

感谢您的支持,我会继续努力的!

扫码打赏,加速更新更多文章。
常见问题
  • 本站资源版权属 AxureMost.cn 所有。任何非官网途径下载均属于盗版,后台有检测机制一经发现传播,共享,出售会起诉追会本站损失。
查看详情
  • 请比对下载完压缩包的与网盘上的容量。
查看详情
发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务