AI绘画工具Midjourney:和Discord互相成就

前言

提到文生图,很多人都会想到植根于根植于Discord社区的Midjourney,本篇文章就基于作者的使用体验+思考,并结合了Discord来对Midjourney进行探讨,感兴趣的朋友一起来看看吧。

如果要说现在最火的文生图,不得不说到Midjourney,它根植于Discord社区,也因此我们聊的时候会结合Discord对它进行展开探讨。

坦率说,当下国内并没有看到一篇真正琢磨Midjourney的文章,更多是媒体报道,在这里Super抛砖引玉,基于少量的使用体验+思考,希望能和大家一起拨开迷雾,找到对的方向。

一、 简述Midjourney

1. Midjourney是什么?

在这里插入图片描述

Midjourney is an independent research lab exploring new mediums of thought and expanding the imaginative powers of the human species.

We are a small self-funded team focused on design, human infrastructure, and AI. We have 11 full-time staff and an incredible set of advisors.

Midjourney是一个独立的研究实验室,探索新的思维媒介,扩大人类物种的想象力

专注于设计、人力基础设施和人工智能。

这是它们官网的介绍,我们现在可见的是文本生成图片的产品,未来产品形态还是可能会出现变化的。

首页里的第一个按钮“Join in the beta”,直接会跳转到它们在Discord上的频道:

在这里插入图片描述

截至目前已经有381万用户加入它们的Discord频道。

大部分工作Midjourney都通过Discord来完成,比如最核心的bot:

用户主要通过Discord的bot机制,通过提交Prompt(提示词),获得图片。

Midjourney也通过bot机制来完成一些其他工作,比如:

  • 将用户生成的图片同步到官网的个人中心;
  • 通过官网收取订阅费,再对用户授予使用次数;

后面会简单阐述下Discord,方便大家更好地理解Midjourney和Discord是如何共生的。

2. 创始人David Holz

David Holz:我的名字是David Holz,是个连续创业者。简短来说,我的经历是:我在高中的时候做过设计生意,大学学的是物理和数学,我在NASA和Max Planck工作的时候攻读了流体力学博士学位。

有一次我不知所措,把所有的事情都放在一边。所以我搬到了旧金山,在2011年左右创办了一家名为Leap Motion的科技公司。我们销售那些可以在手上做动态捕捉的设备,创造了很多手势界面空间。

我创立了Leap Motion并且经营了12年,(但)最终,我希望寻找一个不同的环境而不是一家风投支持的大公司,我离开并创办了Midjourney。

现在,它的规模还很小,我们只有10个人,没有投资者,而且我们也不是以财务回报为动机的。我们没有压力销售什么东西也不用成为上市公司,只是为了未来十年能够有一个家,可以从事很多比较有意义的、酷的项目,希望不仅是对我,还对世界有意义,并且享受乐趣。

【注意,当前资本很热的情况下确实并未看到Midjourney融资的新闻,并且我猜测付费率应该能过5%(早期全球范围内几乎独此一份),也会带来一个月200万美元以上的收入,个人觉得没有必要拿融资。】

他对于Midjourney的理解大体是这样的:

“Midjourney不光是想象力的引擎,往未来迈一步,如果不是一次拍摄几张照片,而是一次拍摄几万张照片,面对这一切,我会感觉自己就像是小孩看着水池的深处,知道自己不会游泳,却能感觉到水池的深度。

AI就是水,人们把它看成老虎,这是错的。水也有危险,但水也是文明的驱动力,如果人类能知道如何与水共处,会过得更好。

Midjourney是一股新的水源。”

这一段有点韵味,建议翻到文末看一下TheVerge采访的原文感受一下。

3. Midjourney欲向何方?

We’re working on a lot of different projects. It’s going to be a wide and diverse research lab. But there are themes: things like reflection, imagination, and coordination. And what we’re starting to become well known for is this image creation stuff.

And we don’t think it’s really about art or making deepfakes, but — how do we expand the imaginative powers of the human species? And what does that mean? What does it mean when computers are better at visual imagination than 99 percent of humans?

That doesn’t mean we will stop imagining. Cars are faster than humans, but that doesn’t mean we stopped walking. When we’re moving huge amounts of stuff over huge distances, we need engines, whether that’s airplanes or boats or cars.

And we see this technology as an engine for the imagination. So it’s a very positive and humanistic thing.

Midjourney在做很多不同的项目,但是创造图像这个工作让他们出名了。

我觉得他们肯定会在这个有着强烈需求的方向上继续拓展,包括可以看到他们也在招聘相关的人才来扩展:

在这里插入图片描述

但相信有了足够的资金后,他们还是会在“things like reflection, imagination, and coordination”方向上探索种种可能性。

二、Discord造就Midjourney

“A lot of people ask us, why don’t you just make an iOS app that makes you a picture?” Midjourney’s founder, David Holz, told The Verge in an interview. “But people want to make things together, and if you do that on iOS, you have to make your own social network. And that’s pretty hard. So if you want your own social experience, Discord is really great.”

为什么是Discord?创始人Holz在回答为什么不做个iOS App的时候,说到,如果我们想做一个自己的社交网络,非常难,但我们想让大家一起创造,从这点来说,Discord非常棒的实现介质。

这种选择很好的帮助了Midjourney快速成长,在继续展开前,我们最好先理解一下Discord是什么?

1. Discord是什么?

在这里插入图片描述

Discord是2015年上线的,最初主打游戏语音连麦,基于Voip技术,由于多端支持(特别是支持网页端)、免费、上手门槛低,然后语音清晰、延时低、连接稳定这些特点,逐步获得用户的认可。

疫情之后,由于Discord的社区功能,从游戏领域破圈,比如,他成了欧洲大量高校的线上教学工具:

在这里插入图片描述

图源知乎

我们可以理解,Discord的本质是一个社区,语音只是他的主打功能之一。

Discord的两位创始人表示:“Discord与大多数在线社交工具完全不同,它没有游戏化系统,没有追随者人数,没有算法推荐。它就是创造了一个地方,让你感觉就像你的朋友就在身边,你遇到他们并与他们交谈、闲聊。”

在这里插入图片描述

你可以非常便捷的创建服务器,在服务器上设立不同的频道,可以理解为频道是不同的主题房间。

另外一个很关键的点是,Discord有Bot,你可以把它理解为机器人,或者插件,允许第三方在Discord提供的接口下独自开发。

在这里插入图片描述

这极大的扩展了社区的功能,也增加了用户的粘性,并且支持开放邀请Bot加入频道的功能(Midjourney也支持了邀请功能)。

Midjourney通过在Discord上创建了自己的服务器,并创建了大量的频道,以及开发了自己的机器人,来向用户提供服务。

2. 如何在Discord里使用Midjourney?

我们进一步,简单来和大家分享一下如何在Discord里使用Midjourney,这样一些无法访问的朋友可以更好地理解:

首先还是要注册一个账号,然后进入新手的newbie频道就可以快速生成图片:

在这里插入图片描述

在newbie频道,“/”可以掉出所有的命令:

在这里插入图片描述

当你输入/imagine +提示词,再回车后,就相当于把Prompt提交给了bot,接着会进入生成过程:

在这里插入图片描述

会有个从模糊到清晰的图像生成过程和进度给到你,

在这里插入图片描述

完成后会让你从4张图中选择,注意此时还没有结束,你可以从4张图中选择一张来U(Upscale,放大像素并提升细节),或者V(Variation,基于所选图片来延伸变形),1~4代表着左上到右下的4张照片。

比如我点击了V4之后,bot又进入了一次新的图片生成过程:

在这里插入图片描述

这里面,我觉得第二张黑色的太阳不错,

在这里插入图片描述

点了U2:

在这里插入图片描述

然后就生成了最终的图,当然你还可以做变形、用网页打开原图,以及给出你的反馈,是惊喜还是失望,等操作。

我点击了Upscale to Max,把清晰度拉满,最后生成了:

在这里插入图片描述

以上就是生成图片的过程。

每个新用户会有一些免费点数,使用完后,Bot会提示你,该交钱啦:

在这里插入图片描述

这一部分在后面的商业模式部分会再展开,现在先跳过去,我们下面来聊聊本节标题,为什么是Discord造就Midjourney?

3. 为什么是Discord造就了Midjourney呢?

首先,Discord是一个共创的土壤。

Inside the community, you have a million people making images, and they’re all riffing off each other, and by default,everybody can see everybody else’s images. You have to pay extra to pull out the community — and usually, if you do that, it means you’re some type of commercial user.

So everyone’s ripping off each other, and there’s all these new aesthetics. It’s almost like aesthetic accelerationism. And they’re all bubbling up and swirling round, and they’re not AI aesthetics. They’re new, interesting, human aesthetics that I think will spill out into the world.

Holz说,个体的想象力是有限的,但我们发现把人们放到一起,大家就会想象力爆棚,所以我们需要创造一个Midjourney的社交,它就是基础设施:Discord。

在社区里,大家都在互相模仿,相当于提供了一个共创的土壤。

如果用户愿意付出额外费用脱离社区自己玩,也恰恰说明他们是特殊的商业客户。

我们来看看Discord可以做什么:

在这里插入图片描述

公告区,创始人Holz发布了一个公告,请付费会员对新的V4算法产出的图片质量做一个评分,发动群众,相当于最后系统会借鉴用户评分去调整模型的生成倾向。

在这里插入图片描述

不同的主题频道,可以把喜好不同的付费用户分流到不同的频道内,帮助用户之间更好的形成共创。

其次,Discord有广泛的用户基础

在今年7月底,负责Discord社区运营的高级经理戴(Mindy Day)表示,Discord月活超过1.5亿

广泛的用户认知也大幅降低了导流转化的成本。

包括前面说的Discord支持多端访问,Super自己都是直接用网页版本访问Midjourney频道,也很流畅,这种体验的优秀也保证了用户的使用感受。

最后,Discord的Bot机制可以帮助Midjourney很好地完成服务

刚才我们介绍过了Bot机制,这里再做个简单的总结:

  1. 用户给Bot发送Prompt;
  2. Bot监测用户的付费情况(以及图片生成额度情况);
  3. 如果有限额,Midjourney在后端直接生成图片并通过Bot返给用户;
  4. 如果无限额,提示用户付费。

由于Discord的这些因素,Midjourney可以持续的快速增长,只需要维护好Bot,以及后端服务即可,大量的降低了其他部分工作量,可以用极少量的员工支持大规模的用户。

4. 基于Discord的Midjourney由于什么爆火?

在这里插入图片描述

《Théâtre D’opéra Spatial》

8月底,美国科罗拉多州博览会的美术大赛公布了获奖结果,一幅名为《太空歌剧院(Théâtre D’opéra Spatial)》的作品在“数字艺术”类别中摘得了桂冠。

这幅图无论是主题、光影、人物、色彩在专业人士眼中都算得上是上乘之作,然后被爆料是作者使用AI生成的(其实是Ai生成后精修的),被人质疑合法性、公平性,并和艺术可能会消亡挂上钩。

这引起了轩然大波,当然,Midjourney就是这个新闻背后的AI……事实上也带来了海量的用户。

根据报道,Midjourney在8月底应该只有30万左右用户,到了9月底就达到了150万+,说明8月底这次美术大赛事件对他们用户增长带来的巨大增长。

再加上前面说的用户使用门槛最低(只需要加入Discord,输入Prompt),简单、效果好、超级牛逼的冷启动,使得它破圈了,再加上本身基于Discord建立的社区不断地鼓励用户共创、增加了粘性,这个增长回路使得Midjourney不断地爆发:

在这里插入图片描述

得益于Discord的社区调性、Bot机制实现的共创效果、以及Midjourney生成的高质量图片抓人的眼球,进而带来的用户传播自增长,这几个部分共同构成了Midjourney的持续增长。

到今天看到的数据用户总数已经破380万。

当然我们也要知道,主动退出Discord的用户毕竟是少数,380万可以算是一个累计用户数(虚荣指标),不过最近登录Discord,我也发现基本能看到的在线用户数都在30万左右,在某种程度上来说,这个用户活跃度还是很高的。

另一个角度,Midjourney和Discord互相成就,Midjourney也是Discord上用户数量最多的服务器。

这里直接将该软件分享出来给大家吧~
在这里插入图片描述

1.stable diffusion安装包

随着技术的迭代,目前 Stable Diffusion 已经能够生成非常艺术化的图片了,完全有赶超人类的架势,已经有不少工作被这类服务替代,比如制作一个 logo 图片,画一张虚拟老婆照片,画质堪比相机。

最新 Stable Diffusion 除了有win多个版本,就算说底端的显卡也能玩了哦!此外还带来了Mac版本,仅支持macOS 12.3或更高版本

在这里插入图片描述

2.stable diffusion视频合集

我们在学习的时候,往往书籍源码难以理解,阅读困难,这时候视频教程教程是就很适合了,生动形象加上案例实战,一步步带你入坑stable diffusion,科学有趣才能更方便的学习下去。

在这里插入图片描述

3.stable diffusion模型下载

stable diffusion往往一开始使用时图片等无法达到理想的生成效果,这时则需要通过使用大量训练数据,调整模型的超参数(如学习率、训练轮数、模型大小等),可以使得模型更好地适应数据集,并生成更加真实、准确、高质量的图像。

在这里插入图片描述

4.stable diffusion提示词

提示词是构建由文本到图像模型解释和理解的单词的过程。可以把它理解为你告诉 AI 模型要画什么而需要说的语言,整个SD学习过程中都离不开这本提示词手册。

在这里插入图片描述

5.SD从0到落地实战演练

在这里插入图片描述

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名SD大神的正确特征了。

这份完整版的stable diffusion资料我已经打包好,需要的点击下方插件,即可前往免费领取!

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/762852.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

深入理解 “androidx.databinding.DataBindingUtil“ 细节和使用

介绍 数据绑定(Data Binding)是 Android 中的一个强大功能,它允许你使用声明性格式而不是编程方式将布局中的 UI 组件绑定到应用中的数据源。androidx.databinding.DataBindingUtil 类是一个工具类,它提供了用于处理数据绑定的方…

单片机语音识别控制蓝牙通信

基于单片机语音识别控制&蓝牙控制 1、Arduino单片机语音控制1.1 直连1.2 蓝牙无线连接1.3 部分核心程序1.4 实物演示 2、51单片机语音控制2.1 直连2.2 蓝牙无线连接2.3 部分核心程序2.4 实物演示 3、STM32单片机语音控制3.1 直连3.2 蓝牙无线连接3.3 部分核心程序3.4 实物演…

数据结构之“刷链表题”

🌹个人主页🌹:喜欢草莓熊的bear 🌹专栏🌹:数据结构 目录 前言 一、相交链表 题目链接 大致思路 代码实现 二、环形链表1 题目链接 大致思路 代码实现 三、环形链表2 题目链接 大致思路 代码实…

RANSAC空间圆拟合实现

由初中的几何知识我们可以知道,确定一个三角形至少需要三个不共线的点,因此确定一个三角形的外接圆至少可用三个点。我们不妨假设三个点坐标为P1(x1,y1,z1),P2(x2,y2,z2),P3(x3,y3,z3)。 圆方程的标准形式为: (xi-x)2(yi-y)2R2 (1…

8605 删数问题

这是一个典型的贪心算法问题。我们可以从高位开始,找到第一个比后面数字大的数字,删除它,然后继续这个过程,直到删除k个数字。如果我们已经删除了k个数字,但是还没有找到一个比后面数字大的数字,那么我们就…

专题六:Spring源码之初始化容器BeanFactory

上一篇咱们通过一个例子介绍初始化容器上下文相关内容,并通过两个示例代码看到了Spring在设计阶段为我预留的扩展点,和我们应该如何利用这两个扩展点在Spring初始化容器上下文阶段为我们提供服务。这一篇咱们接着往下看。 老这样子下回到refresh方法上来…

首款内置电源的迷你主机,不到千元的办公神器 | 零刻EQ13评测报告

零刻首款内置电源的迷你主机,不到千元的办公神器 | 零刻EQ13评测报告 哈喽小伙伴们好,我是Stark-C~ 众所周知,零刻作为目前国产迷你主机第一品牌,旗下系列众多,产线丰富,比如说它有针对游戏玩家的性能主机…

Transformer动画讲解 - 工作原理

Transformer模型在多模态数据处理中扮演着重要角色,其能够高效、准确地处理包含不同类型(如图像、文本、音频、视频等)的多模态数据。 Transformer工作原理四部曲:Embedding(向量化)、Attention(注意力机制)、MLPs(多层感知机)和Unembedding(模型输出)。 阶段一:…

JS数据处理(冒泡寻找对象里面有个Key相同的值并处理相关数据)

1.需要处理成的数据格式 [{ mpptNumber: 1, list:[{checked: false,pvEnableStatus: 0,pvSerialNumber: 1,},{checked: false,pvEnableStatus: 0,pvSerialNumber: 2,}] }, { mpptNumber: 2, list:[{checked: false,pvEnableStatus: 0,pvSerialNumber: 1,},{checked: false,pvE…

Cosine 余弦相似度并行计算的数学原理与Python实现

背景 Cosine 我在LLM与RAG系列课程已经讲了很多次了,这里不在熬述,它在LLM分析中,尤其是在语义相似度的计算中至关重要,在dot attention机制中,也会看到他的身影。这里讲的是纯数学上的运算与python是如何运用相关库进…

Ubuntu机器安装rdkit指定版本,通过conda安装不需要make,有手就行。

阿里云购买Ubuntu 22.0机器 IP没错,访问外网没问题 图片中的命令放在下面了。 useradd test-user -s /bin/bash mkdir /home/test-user chown -R test-user: /home/test-user passwd test-uservi /etc/sudoers wget -c https://repo.anaconda.com/archive/Anacon…

全同态加密在大模型应用中应用

密码学简介 上文的图例基本展示了常见加密体系。加密体系,如果用比较正式的描述方法,无疑是做了三件事: 首先,通过一个生成算法 𝐾𝑒𝑦𝐺𝑒𝑛(1&#x1d70…

小白学习手册:轻松理解MQ消息队列

目录 # 开篇 RabbitMQ介绍 通讯概念 1. 初始MQ及类型 2. MQ的架构 2.1 RabbitMQ的结构和概念 2.2 RabbitMQ消息流示意图 3. MQ下载使用 3.1 Docker下载MQ参考 3.2 进入RabbitMQ # 开篇 MessagesQueue 是一个抽象概念,用于描述消息队列系统的一般特性和功能…

计算机视觉 | 基于 PointNet 网络的飞机零件 3D 点云分割

目录 一、简要介绍二、环境设置2.1 实验配置2.2 必要库安装 三、数据集解析3.1 数据集加载3.2 数据文件夹结构3.3 点云数据可视化3.4 数据获取与预处理3.5 数据集定义 四、模型组网4.1 PointNet 介绍4.2 Paddle模型组网4.3 模型概要 五、模型训练六、模型预测七、总结 Hi&#…

亚马逊广告如何设置关键词竞价获取最优广告投入产出比 (ACOS)

在投放亚马逊商品广告的时候,从我们通常的理解来说,关键词竞价CPC设置的越高,广告投入产出比 (ACOS)越高,所以我们通常希望CPC越低越好,但是从我们实际投放广告来看,CPC与ACOS并不是线性相关。有时候CPC设定…

外卖点餐二合一小程序源码系统 单店多店都可使用 自由下单 带完整的安装代码包以及搭建部署教程

系统概述 外卖点餐二合一小程序源码系统是一款集外卖点餐和店铺管理功能于一体的综合性系统。它不仅适用于单店模式,也能满足多店连锁经营的需求。无论是小型餐厅还是大型餐饮企业,都可以通过该系统轻松实现线上业务的拓展和管理。 该系统基于先进的技…

69. x 的平方根(简单)

69. x 的平方根 1. 题目描述2.详细题解3.代码实现3.1 Python方法一:逐个遍历方法二:二分查找 3.2 Java 1. 题目描述 题目中转:69. x 的平方根 2.详细题解 不能使用系统内置的函数,寻找某个数(假定为x)的…

哈希表(C++实现)

文章目录 写在前面1. 哈希概念2. 哈希冲突3. 哈希函数4.哈希冲突解决4.1 闭散列4.1.1 线性探测4.1.2 采用线性探测的方式解决哈希冲突实现哈希表4.1.3 二次探测 4.2 开散列4.2.2 采用链地址法的方式解决哈希冲突实现哈希表 写在前面 在我们之前实现的所有数据结构中(比如&…

【详解】RV1106移植opencv-mobile库

文章目录 前言一、烧入镜像二、编译项目1.创建项目文件 三、移植四、运行文件五、总结 前言 硬件:瑞芯微Rv1106【Luckfox Pro\Max Pico、网线一根、USB线、串口助手、摄像头 软件:ubuntu 20.4 编译器:arm-rockchip830-linux-uclibcgnueabihf…

昇思25天学习打卡营第6天|网络构建

网络构建 概念模型模型参数 概念 神经网络模型是由神经网络层和Tensor操作构成的,mindspore.nn提供了常见神经网络层的实现,在MindSpore中,Cell类是构建所有网络的基类,也是网络的基本单元。一个神经网络模型表示为一个Cell&…