CTO室の岩本 (iwamot) です。
弊社SlackのChatGPT botに画像生成機能を追加しました。Function callingを使って、OpenAIの画像生成エンドポイントを呼び出すシンプルなものです。
下記が、画像生成機能のソースコード (app/function_call.py) です。42行しかありません。
import json import openai import os def create_image(prompt, size="256x256"): """Creates an image given a prompt""" openai.api_key = os.environ["FUNCTION_CALL_OPENAI_API_KEY"] openai.api_type = "open_ai" openai.api_base = "https://api.openai.com/v1" openai.api_version = None response = openai.Image.create(prompt=prompt, size=size) image_info = { "prompt": prompt, "size": size, "image_url": response["data"][0]["url"], "query_strings_deletable": "false", } return json.dumps(image_info) functions = [ { "name": "create_image", "description": "Creates an image given a prompt", "parameters": { "type": "object", "properties": { "prompt": { "type": "string", "description": "A text description in English of the desired image", }, "size": { "type": "string", "description": "The size of the generated images", "enum": ["256x256", "512x512", "1024x1024"], }, }, "required": ["prompt"], }, }, ]
ChatGPT botで使っているChatGPT in Slackが、先日Function callingをサポートしたため、これだけで実現できました。
- メインのチャット機能ではAzure OpenAI Service (Japan East) を使っていますが、画像生成機能ではOpenAI APIを呼び出しています。Azureだと、US Eastでしか画像生成モデルのDALL·Eがまだ使えないためです
- 関数の戻り値に
"query_strings_deletable": "false"
を含めているのは、ChatGPT botに「画像URLのクエリストリングを削除してはいけないよ」と伝える意図です。実際、不完全なURLが表示されるケースが減りました
画像生成機能を追加したいちばんの目的は、Function callingの存在や可能性を同僚に知ってもらうことでした。Function callingをうまく使えば、ChatGPT botの能力が拡がり、いっそうの業務効率化につながります。
- 提供しているシステムのサービスレベル(SLOや実測値)を取得する
- GitHub IDとスタッフ名を紐づけて検索できるようにする
- 入力されたURLに対応するQRコードを生成する
- 入力されたIPv4アドレスに関する情報を表示する
- 画像をS3に置いて永続化する(今はURLが1時間で無効になる)
- プロンプトが日本語だと思ったような画像にならない場合が多いため、英語に訳してからエンドポイントを呼び出す
追記 (2023-08-31)
import boto3 import json import openai import os import qrcode import urllib3 import uuid import tempfile def _upload_to_s3(file, key, content_type): s3 = boto3.client("s3") if isinstance(file, str): # Assuming it's a file path s3.upload_file( file, os.environ["FUNCTION_CALL_WEB_BUCKET"], key, ExtraArgs={"ContentType": content_type}, ) else: # Assuming it's a file-like object s3.upload_fileobj( file, os.environ["FUNCTION_CALL_WEB_BUCKET"], key, ExtraArgs={"ContentType": content_type}, ) def _generate_object_key(dir, extension): return "{}/{}.{}".format(dir, uuid.uuid4(), extension) def _build_url_for_object(key): return f"https://{os.environ['FUNCTION_CALL_WEB_DOMAIN']}/{key}" def create_image(prompt, size="256x256"): """Creates an image given a prompt""" openai.api_key = os.environ["FUNCTION_CALL_OPENAI_API_KEY"] openai.api_type = "open_ai" openai.api_base = "https://api.openai.com/v1" openai.api_version = None image = openai.Image.create(prompt=prompt, size=size) http = urllib3.PoolManager() r = http.request("GET", image["data"][0]["url"], preload_content=False) key = _generate_object_key("images", "png") _upload_to_s3(r, key, "image/png") r.release_conn() image_info = { "prompt": prompt, "size": size, "image_url": _build_url_for_object(key), } return json.dumps(image_info) def create_qrcode(url): """Creates a QR code given a URL""" img = qrcode.make(url) key = _generate_object_key("images", "png") with tempfile.NamedTemporaryFile() as tf: img.save(tf.name) _upload_to_s3(tf.name, key, "image/png") qrcode_info = { "url": url, "qrcode_image_url": _build_url_for_object(key), } return json.dumps(qrcode_info) def synthesize_speech(text, gender="female"): """Synthesizes speech given text""" voice_id = {"female": "Tomoko", "male": "Takumi"}[gender] response = boto3.client("polly").synthesize_speech( VoiceId=voice_id, OutputFormat="mp3", Text=text, Engine="neural", ) key = _generate_object_key("audios", "mp3") _upload_to_s3(response["AudioStream"], key, "audio/mpeg") speech_info = { "text": text, "gender": gender, "voice_id": voice_id, "audio_url": _build_url_for_object(key), } return json.dumps(speech_info) functions = [ { "name": "create_image", "description": "Creates an image given a prompt", "parameters": { "type": "object", "properties": { "prompt": { "type": "string", "description": "A text description in English of the desired image", }, "size": { "type": "string", "description": "The size of the generated images", "enum": ["256x256", "512x512", "1024x1024"], }, }, "required": ["prompt"], }, }, { "name": "create_qrcode", "description": "Creates a QR code given a URL", "parameters": { "type": "object", "properties": { "url": { "type": "string", "description": "The URL to encode in the QR code", }, }, "required": ["url"], }, }, { "name": "synthesize_speech", "description": "Synthesizes speech given text", "parameters": { "type": "object", "properties": { "text": { "type": "string", "description": "The text to synthesize", }, "gender": { "type": "string", "description": "The gender of the voice", "enum": ["female", "male"], }, }, "required": ["text"], }, }, ]