當前位置: 華文世界 > 科技

GitHub 一周熱點匯總第10期(2024/02/11-02/17)

2024-02-17科技

GitHub 一周熱點匯總第10期(2024/02/11-02/17) ,梳理每周熱門的GitHub專案,了解熱點技術趨勢,來看看這周的熱門專案。

#1 MoneyPrinter

  • 專案名稱:MoneyPrinter - 自動生成 youtube 短片
  • GitHub 連結:https://github.com/FujiwaraChoki/MoneyPrinter
  • 上周 Star 數:5300
  • 這個專案的名字真是太直白了 MoneyPrinter ,本專案是利用多種AI工具來最終實作輸入期望的文本,自動輸出影片短片的效果。

    作者的想法非常的直白和落地,就是透過python將一些現有的技術進行整合,最終實作一個可用的效果。其實專案的內容非常簡單直白,核心只有幾個python檔。

    來說說作者的實作思路,很值得大家借鑒。

  • 使用GPT來寫影片指令碼
  • 使用pexels的API來搜尋相關的影片
  • 用TikTok-Voice-TTS 來做語音生成
  • 使用moviepy來剪下和增加字幕
  • 最後還可以透過Google API來上傳youtube
  • 怎麽樣,看起來似乎很簡單,很多事情都是一樣,做了就不難。

    下面是它的GitHub star,看來外國的友人們也很喜歡專案的實操精神。

    #2 pkl

  • 專案名稱:pkl - 配置即程式碼語言
  • GitHub 連結:https://github.com/apple/pkl
  • 上周 Star 數:4000+
  • 這是一個蘋果的開源專案,Pkl(發音為 Pickle )是一種配置即程式碼語言,具有豐富的驗證和工具。它可以用作命令列工具、軟件庫或構建外掛程式。Pkl 的規模可以從小到大、從簡單到復雜、從臨時配置任務到重復配置任務。

    建立 Pkl 是因為他們相信配置最好用專用配置語言來表達;靜態配置格式和通用程式語言的混合。

    目前的使用場景主要包括生成靜態配置和應用程式執行時配置*。*目前主持的語言包括了Java,Kotlin,Swift和go

    Pkl支持輸出的格式包括如下:

  • JSON
  • Jsonnet
  • Pcf (a static subset of Pkl)
  • (Java) Properties
  • Property List
  • XML
  • YAML
  • 並且 Pkl 為配置內容提供更好的驗證支持,以便在部署前發現內容的錯誤。

    #3 StableCascade

  • 專案名稱:StableCascade - 文生圖模型
  • GitHub 連結:https://github.com/Stability-AI/StableCascade
  • 上周 Star 數:3400+
  • Stable Cascade 是由 StabilityAI釋出了新的一代文生圖模型,Stable Cascade是基於Wuerstchen架構包含三階段的文生圖擴散模型,相比Stable Diffusion XL,它不僅更快而且效果更好。

    本專案是Stable Cascade的官方程式碼庫。我們提供訓練和推理指令碼,以及可以使用的各種不同模型。

    Stable Cascade 在視覺和評估方面都取得了令人印象深刻的結果。根據我們的評估,在幾乎所有比較中,Stable Cascade 在快速對齊和美觀質素方面都表現最好。上圖顯示了使用部份提示(連結)和審美提示相結合的人類評估結果。具體來說,將 Stable Cascade(30 個推理步驟)與 Playground v2(50 個推理步驟)、SDXL(50 個推理步驟)、SDXL Turbo(1 個推理步驟)和 Würstchen v2(30 個推理步驟)進行了比較。

    Stable Cascade 對效率的關註透過其架構和更高壓縮的潛在空間得到了證明。盡管最大的模型比 Stable Diffusion XL 多包含 14 億個參數,但它仍然具有更快的推理時間,如下圖所示。

    Stable Cascade由三個模型組成:Stage A、Stage B和Stage C,代表生成影像的級聯,因此得名「Stable Cascade」。A 階段和 B 階段用於壓縮影像,類似於穩定擴散中 VAE 的工作。然而,如前所述,透過此設定可以實作更高的影像壓縮。此外,階段 C 負責在給定文本提示的情況下生成小的 24 x 24 潛伏。下圖直觀地展示了這一點。請註意,階段 A 是 VAE,階段 B 和 C 都是擴散模型。

    #4 ml-mgie

  • 專案名稱:ml-mgie - 影像編輯模型
  • GitHub 連結:https://github.com/apple/ml-mgie
  • 上周 Star 數:1700+
  • 本專案是由蘋果推出的一款開源人工智能模型 ,能夠基於多模態大語言模型(multimodal large language models,MLLM)來解釋使用者命令,並處理各種編輯場景的像素級操作,比如,全域照片最佳化、本地編輯、Photoshop 風格的修改等。

    Apple ML-MGIE 的主要特性

  • 視覺感知響應生成 。ML-MGIE 可以透過語言模型生成對視覺內容的響應,這意味著它可以理解影像內容並生成相關的文本描述或回答與影像相關的問題。此功能在提供影像描述、增強現實套用和視覺數據分析方面特別有用。
  • 跨模式理解 。ML-MGIE 在跨模態理解方面表現出強大的能力,可以連結不同模態(例如文本和影像)的資訊以實作全面理解。例如,它可以透過分析影像內容和相關文本描述來增強場景理解。這種跨模式理解對於改善人機互動、增強搜尋引擎結果和建立更智能的教育工具至關重要。
  • 影像編輯指南 。ML-MGIE 的一個重要套用是指導基於指令的影像編輯。它可以根據使用者指令編輯影像,例如更改影像中物件的顏色、形狀或大小。這是透過將多模態大語言模型與擴散模型整合來實作的,其中 ML-MGIE 與 InstructPix2Pix 等技術相比顯示出卓越的效能。該能力可套用於自動化影像編輯工具,提高影像編輯的效率和準確性。
  • #5 free-for-dev

  • 專案名稱:free-for-dev - 免費開發工具集
  • GitHub 連結:https://github.com/ripienaar/free-for-dev
  • 上周 Star 數:1300 +
  • 本專案整理了一個針對開發者提供免費套餐的服務集合,包含SaaS、PaaS、IaaS 等多個方面,幫助開發者可以快速的找到自己需要的資源。

    因為免費的開發資源範圍很廣,專案保持專註性,主要針對的人群是基礎設施開發人員(系統管理員、DevOps 從業人員等),這類使用者可以更好在本專案中發現價值。以下是一部份的目錄,內容還是很多的。

    這裏也要提醒國內的開發者一句,這個專案包括的內容主要還是針對海外,如果你做出海業務應該非常適合,如果你是完全的國內開發,需要更加仔細的篩選合適自己的內容。