import requestsfrom PIL import Image
image_url = "https://cdn.pixabay.com/photo/2018/01/29/14/13/italy-3116211_960_720.jpg"image = Image.open(requests.get(image_url, stream=True).raw)image

最后让我们用图像查询 LLaVA 模型，并提示要求描述图片。提示格式如下

“USER: \n\nASSISTANT:”

prompt = "USER: \nDescribe this picture\nASSISTANT:"
outputs = pipe(image, prompt=prompt, generate_kwargs={"max_new_tokens": 200})print(outputs[0]['generated_text'])

它将返回以下答案：

用户：请描述一下这张图片
助理：图片上有一个巨大的、空荡荡的圆形剧场，背景是令人惊叹的海洋景色。圆形剧场周围是郁郁葱葱的绿色山坡，远处可以看到雄伟的山峰。景色宁静而美丽，阳光照耀着大地。

LLaVA 聊天机器人

我们最终创建一个依赖于 LLaVA 模型的简单聊天机器人。我们将使用Gradio 库，它提供了一种快速、简单的方法来创建机器学习 Web 界面。

该界面的核心由一行图像上传器（一个 Gradio Image 对象）和一个聊天界面（一个 Gradio ChatInterface对象）组成。

import gradio as gr
with gr.Blocks() as demo:
    with gr.Row():      image = gr.Image(type='pil', interactive=True)
      gr.ChatInterface(          update_conversation, additional_inputs=[image]      )

聊天界面连接到一个函数update_conversation，该函数负责保存对话历史记录，并在用户发送消息时调用 LLaVA 模型进行响应。

def update_conversation(new_message, history, image):
    if image is None:        return "Please upload an image first using the widget on the left"
    conversation_starting_from_image = [[user, assistant] for [user, assistant] in history if not assistant.startswith('Please')]
    prompt = "USER: \n"
    for i in range(len(history)):        prompt+=history[i][0]+'ASSISTANT: '+history[i][1]+"USER: "
    prompt = prompt+new_message+'ASSISTANT: '
    outputs = pipe(image, prompt=prompt, generate_kwargs={"max_new_tokens": 200, "do_sample" : True, "temperature" : 0.7})[0]['generated_text']
    return outputs[len(prompt)-6:]

调用launch方法启动界面。

demo.launch(debug=True)

几秒钟后，将出现聊天机器人 Web 界面：

恭喜，您的 LLaVA 聊天机器人现在已经启动，并成功运行！

LLaVA：GPT-4V(ision) 的新开源替代品

在线使用 LLaVA

如果你还没有尝试过它，使用 LLaVA 最简单的方法是访问其作者提供的Web 界面。

下面的屏幕截图说明了其界面的运行方式，用户根据冰箱内容的图片询问要做什么饭菜。可以使用左侧的小部件加载图像，其聊天界面允许用户以文本形式提出问题并获得答案。

如何本地运行 LLaVA

LLaVA 还可以使用Ollama（https://ollama.ai/）或 Mozilla ' llamafile ' （https://github.com/Mozilla-Ocho/llamafile）安装在本地计算机上。

在围绕 Ollama 项目开发的工具和界面中，一个值得注意的举措是Ollama-WebUI（如下所示），它再现了 OpenAI ChatGPT 用户界面的外观和感觉。

LLaVA 主要功能简介

LLaVA 由威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学的研究人员设计，最近在 NeurIPS 2023 上进行了展示。该项目的代码和技术规范可以在其Github 存储库上访问。该存储库地址如下：

训练流程

LLaVA 的训练过程由两个相对简单的阶段组成。

第一阶段目标在调整投影模块W，并且视觉编码器和LLM的权重保持冻结。使用来自CC3M 概念字幕数据集的大约 600k 图像/字幕对的子集来执行训练，并且可以在该存储库的HuggingFace 上找到。

整个训练大约需要一天时间，使用 8 个 A100 GPU。

使用 LLaVA 编程：如何开始

下面是以 4 位加载 LLaVA 1.5 的 7B 变体的代码片段：

LLaVA 聊天机器人

我们最终创建一个依赖于 LLaVA 模型的简单聊天机器人。我们将使用Gradio 库，它提供了一种快速、简单的方法来创建机器学习 Web 界面。

相关参考链接：

评论

行动的大雄

最新文章

开源电子书管理软件 Calibre 8.1...

比尔·盖茨：如何在面试中正确回...

萨姆·奥特曼预言集体“超级智能”...

谷歌为 Android 开发者改进了自...

更加安全！Linux 内核运行时保护...

如何构建完整的智能家居监控系...

PHP：PHP 8.4.12 发布公告

Rust核心开发大牛开始找工作，但...

美国法院：谷歌无需被迫出售 Chr...

Unix 联合创始人布莱恩·柯林汉谈...

本周 AI 更新：Mistral 的全新 L...

微软将停用 Microsoft Graph CLI...

Cloudsmith 推出 ML 模型注册表...

Node.js 24.7.0 发布

GTK 4.20.0 发布

马斯克阻止涉案华人工程师，限制...

LLaVA：GPT-4V(ision) 的新开源替代品

在线使用 LLaVA

如果你还没有尝试过它，使用 LLaVA 最简单的方法是访问其作者提供的Web 界面。

下面的屏幕截图说明了其界面的运行方式，用户根据冰箱内容的图片询问要做什么饭菜。可以使用左侧的小部件加载图像，其聊天界面允许用户以文本形式提出问题并获得答案。

如何本地运行 LLaVA

LLaVA 还可以使用Ollama（https://ollama.ai/）或 Mozilla ' llamafile ' （https://github.com/Mozilla-Ocho/llamafile）安装在本地计算机上。

在围绕 Ollama 项目开发的工具和界面中，一个值得注意的举措是Ollama-WebUI（如下所示），它再现了 OpenAI ChatGPT 用户界面的外观和感觉。

LLaVA 主要功能简介

LLaVA 由威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学的研究人员设计，最近在 NeurIPS 2023 上进行了展示。该项目的代码和技术规范可以在其Github 存储库上访问。该存储库地址如下：

训练流程

LLaVA 的训练过程由两个相对简单的阶段组成。

第一阶段目标在调整投影模块W，并且视觉编码器和LLM的权重保持冻结。使用来自CC3M 概念字幕数据集的大约 600k 图像/字幕对的子集来执行训练，并且可以在该存储库的HuggingFace 上找到。

整个训练大约需要一天时间，使用 8 个 A100 GPU。

使用 LLaVA 编程：如何开始

下面是以 4 位加载 LLaVA 1.5 的 7B 变体的代码片段：

LLaVA 聊天机器人

我们最终创建一个依赖于 LLaVA 模型的简单聊天机器人。我们将使用Gradio 库，它提供了一种快速、简单的方法来创建机器学习 Web 界面。

相关参考链接：

评论

行动的大雄

最新文章

开源电子书管理软件 Calibre 8.1...

比尔·盖茨：如何在面试中正确回...

萨姆·奥特曼预言集体“超级智能”...

谷歌为 Android 开发者改进了自...

更加安全！Linux 内核运行时保护...

​​如何构建完整的智能家居监控系...

PHP：PHP 8.4.12 发布公告

Rust核心开发大牛开始找工作，但...

美国法院：谷歌无需被迫出售 Chr...

Unix 联合创始人布莱恩·柯林汉谈...

本周 AI 更新：Mistral 的全新 L...

微软将停用 Microsoft Graph CLI...

Cloudsmith 推出 ML 模型注册表...

Node.js 24.7.0 发布

GTK 4.20.0 发布

马斯克阻止涉案华人工程师，限制...

如何构建完整的智能家居监控系...