MiniGPT-4：由博士创建的开源AI人工智能项目

2023年04月28日 21:05

听声音

ChatGPT很棒，自从发布后注册用户破亿，而在活跃用户中已高达 1 亿，但现在，它仅限于文本文本输入以及文本输出。而其它的 AI 产品中相对于ChatGPT 中进行增强改进了不少，特别是基于图像生成文本的功能。GPT-4 应该通过添加图像处理来扩展它，以允许它基于图像生成文本。

然而，OpenAI 尚未发布此功能，这正是 MiniGPT-4 的用武之地。这个开源项目让我们预览了 GPT-4 中的图像处理可能是什么样子 - 而且非常简洁。

MiniGPT-4：由博士创建的开源AI人工智能项目

什么是MiniGPT-4

MiniGPT-4 是一个发布在 GitHub 上的开源项目，用于演示 AI 系统中的视觉语言功能。它可以做的一些例子包括生成图像描述、根据图像编写故事，甚至仅从绘图创建网站。

尽管顾名思义，MiniGPT-4 并未正式连接到 OpenAI 或 GPT-4。它是由一群位于沙特阿拉伯的阿卜杜拉国王科技大学的博士生创建的。它还基于另一种名为 Vicuna 的大型语言模型 (LLM)，后者本身是建立在开源大型语言模型元 AI (LLaMA) 之上的。它不如 ChatGPT 强大，但根据 GPT-4 本身的评分，Vicuna 的准确率在 90% 以内。

如何使用MiniGPT-4

MiniGPT-4 目前只是一个演示，仍处于第一个版本。目前，可以在该组织的官方网站上免费访问。

https://minigpt-4.github.io/

要使用它，只需将图像拖入或单击“将图像拖放到此处”。上传后，在搜索框中输入您的提示。

你应该尝试什么样的事情?好吧，让 MiniGPT-4 描述一幅图像就足够简单了。但也许您需要一些副本来为您的公司发布帖子。或者，也许您想了解一道有趣的菜肴所需的原料，甚至想知道如何烹饪这道菜的食谱。MiniGPT-4 可以出色地处理这些任务。

编程方面有点粗糙。将一张简单的餐巾纸图变成一个功能正常的网站是 OpenAI 在 GPT-4 首次发布时展示的一个技巧。但是 MiniGPT-4 似乎还不能很好地处理这个问题。ChatGPT 将提供更准确的代码。事实上，通过 ChatGPT 或 GPT-4 运行任何 MiniGPT-4 代码都会为您带来更好的结果。

需要注意的一件事是 MiniGPT-4 使用本地系统的 GPU。因此，除非您拥有相当强大的独立 GPU，否则您可能会发现体验相当缓慢。对于上下文，我在 M2 Max MacBook Pro 上进行了试用，根据我上传的图像生成文本大约需要 30 秒。