news 2026/5/5 7:38:30

终极指南:如何快速扩展LangExtract社区插件生态系统支持AWS Bedrock和LiteLLM

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
终极指南:如何快速扩展LangExtract社区插件生态系统支持AWS Bedrock和LiteLLM

终极指南:如何快速扩展LangExtract社区插件生态系统支持AWS Bedrock和LiteLLM

【免费下载链接】langextractA Python library for extracting structured information from unstructured text using LLMs with precise source grounding and interactive visualization.项目地址: https://gitcode.com/GitHub_Trending/la/langextract

LangExtract是一个功能强大的Python库,能够使用LLM从非结构化文本中提取结构化信息,并提供精确的源定位和交互式可视化功能。本文将详细介绍如何为LangExtract扩展社区插件生态系统,以支持AWS Bedrock和LiteLLM,让你轻松扩展文本提取能力。

为什么需要扩展LangExtract插件生态系统?

随着人工智能技术的快速发展,越来越多的大型语言模型(LLM)服务提供商涌现,如AWS Bedrock和LiteLLM。扩展LangExtract的插件生态系统,能够让用户根据自己的需求选择合适的LLM服务,提高文本提取的灵活性和效率。

LangExtract的交互式可视化功能可以帮助用户更直观地查看提取结果。例如,在医疗文本提取场景中,它能够清晰地标记出药物名称、剂量、频率等关键信息:

准备工作:环境搭建与项目结构

在开始扩展插件之前,首先需要搭建开发环境并了解LangExtract的项目结构。

1. 克隆项目仓库

git clone https://gitcode.com/GitHub_Trending/la/langextract cd langextract

2. 项目结构概览

LangExtract的项目结构清晰,主要包含以下几个关键目录:

  • langextract/:核心代码目录,包含了LangExtract的主要功能实现
  • examples/:示例代码目录,包含了各种使用示例和插件开发示例
  • plugins/:插件目录,用于存放社区开发的各种插件
  • scripts/:脚本目录,包含了一些实用的工具脚本

其中,examples/custom_provider_plugin/目录提供了一个自定义provider插件的示例,我们可以以此为基础进行扩展。

扩展LangExtract支持AWS Bedrock

AWS Bedrock是一项完全托管的服务,提供了对各种基础模型的访问。下面我们将介绍如何为LangExtract开发一个支持AWS Bedrock的插件。

1. 创建插件骨架

LangExtract提供了一个便捷的脚本create_provider_plugin.py,可以帮助我们快速创建插件骨架。运行以下命令:

python scripts/create_provider_plugin.py AWSBedrockProvider --with-schema

这将在examples/custom_provider_plugin/目录下创建一个名为langextract_provider_awsbedrock的插件目录,包含了基本的插件结构和schema文件。

2. 实现AWS Bedrock Provider

打开langextract_provider_awsbedrock/provider.py文件,我们需要实现AWS Bedrock的具体调用逻辑。以下是关键部分的实现:

# 导入必要的库 import boto3 from langextract.core import base_model from langextract.providers import router @router.register(r'^aws-bedrock') class AWSBedrockProvider(base_model.BaseLanguageModel): def __init__(self, model_id: str = 'anthropic.claude-v2', region_name: str = 'us-east-1', **kwargs): super().__init__() self.model_id = model_id self.region_name = region_name self.client = boto3.client('bedrock-runtime', region_name=region_name, **kwargs) def infer(self, batch_prompts: Sequence[str], **kwargs): # 实现AWS Bedrock API调用逻辑 for prompt in batch_prompts: # 构造请求 request = { "prompt": prompt, "max_tokens_to_sample": kwargs.get('max_tokens', 1000), # 其他参数... } # 调用AWS Bedrock API response = self.client.invoke_model( modelId=self.model_id, body=json.dumps(request) ) # 处理响应 result = json.loads(response['body'].read()) yield [types.ScoredOutput(score=1.0, output=result['completion'])]

3. 配置Schema

编辑langextract_provider_awsbedrock/schema.py文件,定义AWS Bedrock特有的配置参数,如模型ID、区域等。

扩展LangExtract支持LiteLLM

LiteLLM是一个统一的API,支持多种LLM服务。下面我们将介绍如何为LangExtract开发一个支持LiteLLM的插件。

1. 创建插件骨架

同样,使用create_provider_plugin.py脚本创建LiteLLM插件骨架:

python scripts/create_provider_plugin.py LiteLLMProvider --with-schema

2. 实现LiteLLM Provider

打开langextract_provider_litellm/provider.py文件,实现LiteLLM的调用逻辑:

# 导入必要的库 import litellm from langextract.core import base_model from langextract.providers import router @router.register(r'^litellm') class LiteLLMProvider(base_model.BaseLanguageModel): def __init__(self, model_id: str = 'gpt-3.5-turbo', **kwargs): super().__init__() self.model_id = model_id self.kwargs = kwargs def infer(self, batch_prompts: Sequence[str], **kwargs): # 合并默认参数和调用参数 all_kwargs = {**self.kwargs, **kwargs} # 实现LiteLLM API调用逻辑 for prompt in batch_prompts: # 调用LiteLLM API response = litellm.completion( model=self.model_id, messages=[{"role": "user", "content": prompt}], **all_kwargs ) # 处理响应 yield [types.ScoredOutput(score=1.0, output=response.choices[0].message.content)]

3. 测试插件功能

创建测试文件test_litellm_provider.py,编写测试用例验证插件功能:

import langextract as lx def test_litellm_provider(): config = lx.factory.ModelConfig( model_id="gpt-3.5-turbo", provider="LiteLLMProvider" ) model = lx.factory.create_model(config) # 测试简单提取 text = "Lady Juliet gazed longingly at the stars, her heart aching for Romeo" schema = lx.schema.EntitySchema( entities=[lx.schema.EntityType(name="character"), lx.schema.EntityType(name="emotion")] ) result = lx.extract(text, schema=schema, model=model) assert len(result.entities) > 0

运行测试,确保插件能够正常工作。

插件注册与使用

完成插件开发后,需要将插件注册到LangExtract中,以便在实际应用中使用。

1. 注册插件

在插件的__init__.py文件中添加注册代码:

from .provider import AWSBedrockProvider, LiteLLMProvider __all__ = ["AWSBedrockProvider", "LiteLLMProvider"]

2. 在项目中使用插件

在实际应用中,可以通过以下方式使用我们开发的插件:

import langextract as lx # 使用AWS Bedrock插件 bedrock_config = lx.factory.ModelConfig( model_id="anthropic.claude-v2", provider="AWSBedrockProvider", region_name="us-east-1" ) bedrock_model = lx.factory.create_model(bedrock_config) # 使用LiteLLM插件 litellm_config = lx.factory.ModelConfig( model_id="gpt-3.5-turbo", provider="LiteLLMProvider" ) litellm_model = lx.factory.create_model(litellm_config) # 提取文本 text = "The patient was prescribed Lisinopril and Metformin last month. He takes the Lisinopril 10mg daily for hypertension, but often misses his Metformin 500mg dose which should be taken twice daily for diabetes." schema = lx.schema.EntitySchema( entities=[ lx.schema.EntityType(name="medication"), lx.schema.EntityType(name="dosage"), lx.schema.EntityType(name="frequency"), lx.schema.EntityType(name="condition") ] ) result = lx.extract(text, schema=schema, model=bedrock_model) print(result)

运行上述代码,你将看到LangExtract使用AWS Bedrock或LiteLLM模型提取出文本中的医疗实体信息,效果如下:

总结与展望

通过本文的介绍,你已经了解了如何为LangExtract扩展社区插件生态系统,以支持AWS Bedrock和LiteLLM。这不仅可以提高LangExtract的灵活性和适用性,还能为你的文本提取任务带来更多可能性。

未来,我们可以期待LangExtract社区开发更多的插件,支持更多的LLM服务和功能,如多模态文本提取、实时数据处理等。如果你有兴趣参与LangExtract的开发,可以参考CONTRIBUTING.md文件,了解贡献指南。

希望本文能够帮助你更好地使用和扩展LangExtract,为你的文本提取任务提供有力的支持!

【免费下载链接】langextractA Python library for extracting structured information from unstructured text using LLMs with precise source grounding and interactive visualization.项目地址: https://gitcode.com/GitHub_Trending/la/langextract

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/5 7:37:15

Indiedroid Nova单板计算机:RK3588S性能与散热深度评测

1. Indiedroid Nova单板计算机深度解析Indiedroid Nova是一款基于Rockchip RK3588S处理器的单板计算机(SBC),采用与树莓派4相同的85x56mm标准尺寸设计。作为一名嵌入式开发老手,我第一时间入手了16GB内存版本进行实测。这款板子最吸引我的地方在于其全金…

作者头像 李华
网站建设 2026/5/5 7:31:48

基于MCP协议构建AI工具集成服务:从原理到实践

1. 项目概述与核心价值 最近在折腾一些AI应用开发,发现一个挺有意思的现象:很多开发者想把自己的本地数据、工具或者服务接入到大语言模型(LLM)的工作流里,但往往卡在“连接”这一步。要么是API设计复杂,要…

作者头像 李华
网站建设 2026/5/5 7:22:21

.NET 9 + Docker一键上线:从零构建高可用API容器的5步极简工作流

更多请点击: https://intelliparadigm.com 第一章:.NET 9 Docker一键上线:从零构建高可用API容器的5步极简工作流 .NET 9 带来了原生AOT编译、性能增强的HTTP/3支持以及更轻量的运行时镜像,结合Docker可实现真正意义上的“开箱即…

作者头像 李华
网站建设 2026/5/5 7:21:09

AML模组管理器:XCOM 2和奇美拉小队的高级模组管理解决方案

AML模组管理器:XCOM 2和奇美拉小队的高级模组管理解决方案 【免费下载链接】xcom2-launcher The Alternative Mod Launcher (AML) is a replacement for the default game launchers from XCOM 2 and XCOM Chimera Squad. 项目地址: https://gitcode.com/gh_mirro…

作者头像 李华
网站建设 2026/5/5 7:17:25

新手也能上手的ASO关键词优化完整实操(下篇)

上期我们重点讲解了ASO关键词库搭建的全套方法,相信大家已经掌握了关键词基础属性、词库建立的核心步骤。本期承接上篇内容,继续深入讲解关键词优化进阶实操,手把手教大家精准筛选、优化关键词,零基础也能轻松落地,高效…

作者头像 李华