当前位置: 华文世界 > 科技

快手接棒Stability AI,Kolors领跑开源生态

2024-07-20科技

快手接棒Stability AI,Kolors领跑开源生态

它很有可能是在美国本土的玩家可以直观地感受到的最大的文森特卡型号。

由快手旗下的一款名为「神画」的游戏,最近官方发布了一个开放源码的消息,很快就掀起了一股热潮。这个有才能的"艺术家"不但能作画,而且对中国文化的精华也很有研究,不但能"画",而且能"写",所以他能很轻松地写出汉字来。无论是视频还是教程,又或者是社交平台上的评论,在 Kotou上形成了一股热议。

众所周知, Kolors在产生效应上超过现存的诸如SD3之类的开放源码模式,可以和商用封闭源代码的Midjourney-v6相提并论。科乐思(Kolors)在处理复杂的文本时表现出了极强的视觉效果,其图片纹理呈现出照片级别的纹理,并且能够自动产生中文和英文的汉字。这样一个功能强大且开放源码的模式怎能不让人激动呢?

在这一波 AI浪潮中,快手会采取一种审慎而又实用的方式。在不久前召开的国际人工智能会议上,拉瑟的巨型机器人系列第一个登场,并且公布了 Kolors作为一个开放源码的程序,引发了相当大的反响。

这个 Kolors开放源码的软体包含模式权重,完整程式码,以及科技报表。这是一款综合性很强的软件,可以通过 Huggingface平台以及 GitHub获得。独立开发人员可以自由地或经登记后用于商业用途。

Kolors的开源软件在 Github上已经得到超过2,000个星星的支持。

同时,【Kolors】在 Huggingface网站的「模型潮流」榜单中排名第一,到发行前已经有上万的下载量。

Kolors在开放源码社区中引起的反响就是一个很好的例证。很多开发者在亲身经历过 Kolors的产生过程之后,对其进行了高度评价。

在 X平台上,由 Stability AI和 Huggingface这样的公司的开发者领导着测试,宣传和批准了 Kolors。

同时,该网站也获得了大量的职业使用者,这些人都把推广和改善 Kolors作为自己的使命。

Kolors的开放源码版本由于它的卓越性能而受到了广泛的注意。在 FlagEval图表模式的第三方打分中,考尔斯的主观得分为75.23,排在封闭来源模式DALL-E3之后,位列世界第2。其中, Kolors在图片的主观品质上尤其出色,获得了1个点,远远超过了其它开放源码和非开放源码软件。

Kolors在50名人脸影像专业人士的评测中也获得了相当好的评价,它比许多开放源码软件都要好,可以和Midjourney-v6媲美,而且在视觉效果上也处于领先地位。

Kolors采用了隐蔽的传播模式,并采用了一种全新的大语种模式来展示文字。这样,考尔斯就可以看懂那些很长很复杂的文字了。同时,它也提供了中文和英文两种不同的语言环境。另外, Kolors采取了两级递进的教学方法(观念学习与审美提升),使其在视觉美感与视觉品质上居于世界前列。

1

对复杂文字有很强的理解

Kolors采用大规模语义建模方法对文字进行特征表达,构建了一个高质量的图文描述库,有望在对复杂文字的理解上有所突破。以下图片显示,从一件黑色的皮衣到一副时髦的太阳镜,再到一条鲜艳的红色裙子,再到鲜艳的口红,柯尔斯都能准确地描绘出一名中国妇女的每一个要素。考尔斯在处理文森特模型上的颜色混乱方面也做得很好。该方法可以在多人、色彩的情况下,精确地描绘出该模型,并将文本的说明转换成可视表达。

一名中国时尚女士漫步在上海大街上,身着黑色皮夹克,红色长裙,挎着黑色双肩包,墨镜,涂着红色口红,显得很是潇洒。那孩子带着深绿色的帽子,穿着一件蓝运动衫和一件黑大衣

柯罗是万森纳公司自己设计的一款大型号,在对中国特有的要素的把握与刻画方面,有着卓越的造诣。在北京奥林匹克地标"鸟巢"、上海当代都市风景"外滩"、中华文化"天坛"、"长城"这些具有代表性的文化符号,柯洛先生都能很好地诠释并描绘出中国的文化,见下表。长城,这是中国文化的标志,画的很精确,也很详细。

1

对中文文字的创造提供了支助

其中一个主要的功能就是它对汉字自动产生的能力。第三代和第三代都提供了英文文字的产生,而柯罗也是首款具有中文文字自动产生功能的图像模式。

经过对「可托」公司的实测,「可托」中文字体的表现,已是令人惊叹不已。它不但可以精确地画出一些比较少见的汉字(例如: silent),而且也可以实现中文和英文的同步渲染,并且具有较强的贴合力。

柯罗可以应付复杂的SD3提示。它可以精确地提取并重现线索的具体数目、确切位置、丰富颜色、英文汉字、中文汉字及数码等多个方面的复杂性特征。

借助大规模的语言模式,科尔斯看来有一颗"大脑",它可以对人类的言语进行深度的剖析,从而可以迅速地了解和精确地完成各类复杂的可视化编写命令。这证明 Kolors有很强的理解复杂的语意。

1

相片品质影像材质

在海量的训练样本和最佳的学习方法下,柯罗可以产生高品质的图片。

考尔斯的训练包括两个部分:观念的学习与品质的调整。首先,柯罗通过大量的图片文字对来学习不同的技巧。之后,研究小组利用高品质且美观的资料来调整该模式,改善影像的品质与美感。此外, Kolors还提出了一种新的噪声加入方法,以改善对高分辨影像的识别能力。这一系列的改进极大地改善了利用此方法所产生的影像品质与视觉上的影响,使得柯罗影像呈现出照相水准的纹理。

1

深度商业情景

Kolors以其开源的优秀模型而受到世界各地的重视。Kolors的文字转图像的能力已经被 Racer旗下许多商业单位所采纳。

比如,「虚拟知识产权图片定制」,可以让使用者按照特定的需求,生成一个既能满足用户需求,又能满足用户需求的、个性化的、最优的虚拟图片。这款软件不但提升了创作的速度与品质,也为创造商标与个性创造出新的可能。

Kolors在创造图片的时候,可以保留使用者唯一的脸部特性,并且可以使用人像 ID储存功能来创造各种不同的人像。在游戏中,用户可以在各种类型的人物之间随意转换,如卡通、油画、赛博朋克式等等。这既可以满足玩家多元化、个性化的表现需要,又可以进行多种风格合成、个性化夸张的面部表情以及个性化画像等多种玩法。

有了 Kolors,使用者就能在一个虚拟的场景里尝试不同的服饰及配件,并且能即时地查看试穿结果。这项特性不但可以提升消费者的消费经验,而且可以提升品牌的影响力与魅力。商家能够按照使用者的个性化要求,自动生成各类商品图像及展示资料,使得市场推广更为精确,从而达到「千人千面」的商品素材生成。

1

在 SD以后, Kolors获得了开源的遗产

在开放源码社群中, Stability AI近来发生了巨大的变化。埃马德-莫斯塔克(Sturance)的创立者及 CEO在三月宣布辞职,随后公司高层及主要技术人员相继离开,并有传闻说公司打算"出售",人们开始担忧它是否会成为稳固 AI系统的最后一支舞蹈。Stability AI的谢幕虽然在开放源码社区受到沉重打击时,作为一个开放源码的解决方案, Kolors仍然是一个新的热门话题。

开源 Kolors不但在性能上超过了开放源码的 Stable Diffusion 3,还同时提供了中、英、汉两种语言的自动绘制功能,其图形品质已达世界先进水准,完全可以与市面上的封闭源代码相比。此外, Racer还表示,公司致力于开放源代码,并将逐渐开放 Kolors的相关软件,如 ControlNet, LORA, IP适配器等,拓展其开放源码生态。

另外,我们很开心的发现很多开发商都在使用 Kolors开发的软件。我们有信心通过开放源码社区的合作,使 Kolors的开放源码环境变得更加完美。

总体而言, Kolor的开放源码显示出快手所持的开放姿态以及对人工智能科技的科技力量。我们期望通过开放源码,推动万森纳大型模型研究领域的快速发展,并为企业及开发者们提供强有力的软件和软件。在将来,更多的企业和开发商开始采用 Kolors,我们可以预见,在 WyntMap的大型模型领域,会有一个新的增长机会。

如今,随着人工智能的兴起,尖端科技的光芒越来越耀眼,越来越多的科研院所对此充满了热情和迫切。不管是大语种模型也好,产生型人工智能也好,都是科技的终极目标。唯有能站在行业前沿,把精力放在真正的问题上,这样的企业,才会在未来的岁月里繁荣起来。

拉泽公司在大规模的 AI建模方面一直保持着低调,高标准,以及开放的态度。他们没有做过任何的买卖,也没有做过任何的小动作。像 Kolors这样的模式实际地解决了使用者与企业的需要,并且通过开放源码回报社区。

纵观整个网络产业的发展历程,每次科技创新都离不开其内容形式。由于产生型人工智能和推荐算法之间的关系日益密切,因此,将大数据模式与短视频平台相结合是未来两种技术发展的必然趋势。Kolors的开放源码以及在市场上的应用为我们提供了一个良好的开端,现在是时候看看 Shutterstock是否能够把握这个机会,带来一次变革。

1

再来点别的。

现在,「大模板」的所有功能都被整合进了「科灵」,一般的用户都可以在「科灵」的官方网站以及「科灵」公众号的微信公众号上,都是免费的。