谷歌Gemini和Gemma大模型的Python调用

发表于 2024-08-29 更新于 2024-10-23 阅读次数：阅读次数：

1. 说明

Google 发布了Python 包google-generativeai，可以方便地调用Gemini和Gemma 系列的模型，免费模型只需要申请一个Key，无需任何费用。

而且Gemini 1.5 Pro模型还支持一些多模态任务，例如检测bbox，实际测试下来效果还不错。
这里简单写一个流程，体验效果。

2. key获取与包安装

访问Google AIStudio 来进行Key注册：Google AI Studio
Python包安装:

1	pip install -U google-generativeai

3. 文本输入

简单使用大模型的对话能力，例如讲一个鬼故事：

# pip install -U google-generativeai
import google.generativeai as genai
import os
import PIL.Image

# obtain your key at https://aistudio.google.com/
genai.configure(api_key=os.environ["GOOGLE_API_KEY"])
model = genai.GenerativeModel('gemini-1.0-pro-latest')
response = model.generate_content("讲一个鬼故事")
print(response.text)

输出结果:

最后一句有点惊悚…

4. 多模态输入

随便找了一张跳舞的人的图片，测试一下人体框检测效果，这里使用Gemini-1.5-pro来多模态检测人体框：

prompt如下：’Return bounding boxes of the

1. 说明

2. key获取与包安装

3. 文本输入

4. 多模态输入

5. 参考