OpenAI 投資，1X 家務機器人 NEO 釋出

2024-09-03科技

開發者朋友們大家好：

這裏是 「RTE 開發者日報」 ，每天和大家一起看新聞、聊八卦。我們的社區編輯團隊會整理分享 RTE（Real-Time Engagement）領域內「有話題的新聞」、「有態度的觀點」、「有意思的數據」、「有思考的文章」、「有看點的會議」，但內容僅代表編輯的個人觀點，歡迎大家留言、跟帖、討論。

本期編輯：@SSN，@卜

01 有話題的新聞

1、輝達推出 Eagle 系列模型，能處理高達 1024×1024 像素分辨率的影像

輝達最近推出的 Eagle 多模態大語言模型在 AI 領域引起了廣泛關註。這個模型在視覺問答和文件理解等任務上取得了顯著進展，是多模態 AI 領域的一個重要裏程碑。Eagle 模型的關鍵創新之一是其能夠處理高達 1024×1024 像素分辨率的影像，這使得它在光學字元辨識和精細物體辨識等任務中能夠捕捉到微小的細節。這種高分辨率處理能力為醫療影像分析、衛星影像解讀等多個套用領域帶來了新的可能性。

Eagle 采用了多專家視覺編碼器架構，整合了多個專門的視覺編碼器，每個編碼器都針對物體檢測、文本辨識、影像分割等特定任務進行了專門訓練，從而實作了全面和深入的影像理解。研究團隊發現，將一組互補視覺編碼器的視覺標記連線起來，與更復雜的混合架構或策略一樣有效。

Eagle 模型的套用前景廣闊，可以用於提升法律、金融、醫療行業的文件處理效率，電子商務行業的產品搜尋和推薦系統的準確性，支持教育領域更先進的數碼學習工具，以及開發無障礙技術領域的輔助技術。研究人員已經將 Eagle 開源，釋出了完整的程式碼和模型權重，以推動 AI 生態系的發展。（@DeepTech 深科技）

2、1X Technologies 釋出全新一代家務機器人 NEO 原型，動作絲滑逼近人類

OpenAI 押註的初創公司 1X Technologies 正式宣布，最新的通用家務機器人 NEO beta 測試版上線。NEO 身高 5 英尺 5 英寸，大概 1 米 65，體重 30 公斤，步行速度 2.5 英裏 / 小時（1.12 m/s），跑步速度 7.5 英裏 / 小時（3.35 m/s），NEO 專為做家務而設計，能夠穿衣服並完成家務任務，如泡咖啡、拿起物品等。可以承重 20 公斤，執行時間可達 2 到 4 個小時。

NEO 的設計目標是在安全性和實際效能之間取得平衡，采用類似人體肌腱的柔性驅動技術和串聯彈性驅動器，使其在與人類的互動中更加安全。此外，NEO 還整合了 AI 技能，能夠在家庭環境中學習和適應，其訓練過程允許非專業人員參與。1X 團隊計劃將之前的 EVE 機器人經驗遷移到 NEO 上，並預計到 2027 年，機器人將在各個領域變得「足夠智能」。據悉，NEO 的 CEO Bernt Børnich 和 AI 副總裁 Eric Jang 對 NEO 的技術細節進行了揭秘，並表示 NEO 計劃最快今年內發售，價格將努力控制在經濟型小汽車的水平。（@雷鋒網）

3、Kotaemon：一個開源、幹凈且可客製的 RAG UI 可以於與你的文件聊天

Kotaemon 是一個基於檢索增強生成（RAG）的開源工具，旨在實作與文件對話的功能。該工具為終端使用者和開發者提供了一個幹凈且可客製的 UI，使使用者能夠在自己的文件上進行問答，並允許開發者構建自己的 RAG 管道。

特點：

RAG : 基於 RAG 能從文件中檢索資訊並生成答案。

多模型支持 ：包括 OpenAI、Azure OpenAI、Cohere，及本地模型等。

使用者介面 ：提供了一個功能豐富、可客製的使用者介面，可以輕松與文件互動。

可客製 ：可根據需求調整設定，包括檢索和生成過程的配置等。

多模態支持 ：支持對包含圖表和表格的多模態文件進行問答。

復雜問題處理 ：支持復雜推理方法，比如問題分解和基於代理的推理等。

（@GitHub寶典）

4、史丹佛、NYU 用 GPT-4 模仿人類，高精度復制社會科學實驗

史丹佛和 NYU 的一項研究發現，GPT-4 能夠很好地模擬人類，高精度地復制社會科學實驗。

研究者透過向 AI 提供人口統計特征和實驗刺激，模擬了 1 萬名「AI 人」的反應，生成了社會科學實驗報告。結果顯示，AI 的預測準確性在 70 項研究中與實際觀察結果高度一致，甚至超過了人類專家。研究還發現，盡管訓練數據存在不平等，AI 預測的準確性在不同亞組間仍具有可比性。這項研究為低成本、快速的社會科學實驗提供了可能。（@騰訊科技）

5、中國科學院開發出基於語意記憶的動態神經網絡：相比靜態最高減少 48.1% 計算量

中國科學院微電子研究所等將人工神經網絡與大腦的動態可重構性相結合，開發出基於語意記憶的動態神經網絡。

大腦神經網絡具有復雜的語意記憶和動態連線性，可將不斷變化的輸入與龐大記憶中的經驗聯系起來，高效執行復雜多變的任務。

目前，人工智能系統廣泛套用的神經網絡模型多是靜態的。隨著數據量不斷增長，它在傳統數碼計算系統中產生大量能耗和時間開銷，難以適應外界環境的變化。

與靜態網絡相比，語意記憶動態神經網絡能夠根據計算資源權衡辨識準確性和計算效率，可在資源受限器材或分布式計算環境中展現出色的效能。

在對 2D 影像數據集 MNIST 和 3D 點雲數據集 ModelNet 的分類任務中，該設計實作了與軟件相當的準確率，相比於靜態神經網絡減少了 48.1% 和 15.9% 的計算量，相比傳統數碼硬件系統降低了計算能耗。（@IT 之家）

02 有態度的觀點

1、微軟副總裁 Vik Singh：AI 聊天機器人需「學會求助」而非「制造幻覺」

微軟公司副總裁 Vik Singh 在接受采訪時說，「坦率地說，如今（生成式 AI）真正缺少的能力，即是當模型無法確定（自身答案是否準確）時，能夠主動說‘嘿，我不確定，我需要幫助’。」

自去年以來，微軟、谷歌及其競爭對手一直在迅速部署如 ChatGPT、Gemini 等生成式 AI 套用，這些套用可以按需生成各種內容，並給使用者一種「無所不知」的錯覺。盡管生成式 AI 的開發取得了進展，它們仍然會出現「幻覺」或編造答案，有時甚至是危險的資訊。造成「幻覺」的原因之一，是訓練數據不準確、泛化能力不足以及數據采集過程中的副作用。

Vik Singh 堅持認為，「真正聰明的人」正在努力找到方法，讓聊天機器人在不知道正確答案時「承認並尋求幫助」。

與此同時，雲端軟件巨頭 Salesforce 的行政總裁 Marc Benioff 也在上周表示，他看到許多客戶對微軟 Copilot 的誤導性表現越來越感到沮喪。（@IT 之家）

寫在最後：

我們歡迎更多的小夥伴參與 「RTE 開發者日報」 內容的共創，感興趣的朋友請透過開發者社區或公眾號留言聯系，記得報暗號「共創」。

對於任何反饋（包括但不限於內容上、形式上）我們不勝感激、並有小驚喜回饋，例如你希望從日報中看到哪些內容；自己推薦的信源、專案、話題、活動等；或者列舉幾個你喜歡看、平時常看的內容渠道；內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網絡新聞