讀十堂極簡人工智慧課筆記06_自然語言處理

2024-02-19科技

1. 聊天機器人

1.1. 人工智慧往往掌握不了跨越幾段對話語境的討論

1.1.1. 抓不住連貫的主題，只能單獨處理每個句子

1.1.2. 不能將其答案與現實聯系起來

1.1.3. 可能會遵循語言規則、統計相關性，甚至尋找有關事實來為每個新句子提供答復

1.2. 聊天機器人只是在模擬對話

1.2.1. 操縱著符號，卻不了解這些符號的含義

1.2.2. 約翰·塞爾的中文房間論證

1.3. 哲學家深刻地關心真實性的問題，但商業世界並不關心

1.3.1. 對商界來說，重要的是結果，而不是產生這個結果的過程

1.4. 在現實世界的套用中

1.4.1. 一個能自動提供線上客戶服務的聊天機器人

1.4.2. 一個能利用產品知識資料庫回答客戶問題的聊天機器人

1.4.3. 企業必不可少的工具

1.4.3.1. 能讓真人騰出手來處理難度更大的咨詢

2. 語言規則

2.1. 在自然語言處理領域，諾姆·喬姆斯基是其發展史上的關鍵人物

2.1.1. 美國語言學家、哲學家

2.1.2. 認知科學領域（關於思維及其能力的科學研究）的創始人之一

2.1.3. 最著名的一大成果是通用語法

2.1.3.1. 在研究兒童的語言能力發展後總結出來的理論

2.1.3.2. 兒童雖然能夠學會流利地說話，但他們在學習過程裏其實根本沒有接收到足夠的資訊

2.1.3.2.1. 所謂的「刺激的貧乏」

2.1.3.3. 兒童能夠發展語言技能的唯一途徑是他們擁有先天的溝通能力，在他們的大腦中本來就有相關的連線

2.1.3.4. 先天的語言能力可以被認為是一套語言規則，即一套通用語法

2.1.3.5. 這一想法發展為轉換——生成語法的理論，也就是使用「形式語法」來描述嵌入不同語言中的規則，讓人們能夠比較這些語言

2.1.3.6. 這一思想在20世紀50至70年代主導了語言學，而這正是人工智慧研究者開始嘗試讓電腦處理文字的時候

2.2. 喬姆斯基的層級結構

2.2.1. 所有形式化語法都是第0型，或無限制型（最一般的型別）

2.2.2. 只有一部份第0型語法同時也是第1型

2.2.2.1. 上下文敏感型

2.2.2.2. 這類詞根據上下文可能只適合放在某個地方

2.2.3. 只有一部份第1型語法同時也是第2型

2.2.3.1. 上下文自由型

2.2.3.2. 大多數電腦程式語言的設計方式

2.2.3.3. 語句中不能有任何歧義

2.2.4. 只有一部份第2型語法同時也是第3型

2.2.4.1. 其定義的規則語言是如此簡單和狹窄，以至於有限狀態機都可以理解它們

2.3. 自然語言處理就是聊天機器人內部的符號人工智慧

2.3.1. 目的是弄清怎麽處理書面文字

2.4. 早期的聊天機器人廣泛使用了喬姆斯基的理論，人們可以據此開發出清晰而精確的語言規則

2.5. 正是透過自然語言處理，研究人員現在可以將成千上萬互相獨立的科學論文整合對照，得出人類無法實作的新發現

3. 語料庫語言學

3.1. 隨著世界上越來越多的知識、商業活動和社互動動轉移到互聯網上，人類之間對話的數據量也有了指數級增長

3.2. 這些數據的第一個用途，是透過一種叫作決策樹的人工智慧方法，自動生成語言規則

3.3. 決策樹流行的原因是，它們很容易理解

3.3.1. 與神經網路方法不同的是，神經網路像「黑箱」

3.3.1.1. 你不知道資訊是如何儲存的，也不知道決策是如何做出的

3.3.2. 在決策樹中，你可以看清整個過程

3.3.2.1. 決策樹就像用於機器人控制的行為樹

3.4. 過度擬合

3.4.1. 人工智慧學到的模型過於貼合訓練數據，而不能泛化套用到新數據上

3.5. 隨機森林就是把一組決策樹結合在一起使用，每一個決策樹都是在較小的數據子集上訓練出來的，以防止過度擬合

3.6. Word2Vec

3.6.1. 目前最受歡迎的方法之一

3.6.2. 使用簡單的神經網路與大量的數據來學習哪些詞語的組合傾向於出現在彼此靠近的地方

3.6.3. 可以從一組上下文詞匯中預測中間的詞可能是什麽

3.6.4. 從一個中間的詞預測一組可能的上下文詞匯

3.7. 摺積神經網路、強化學習和其他型別的迴圈神經網路、遞迴神經網路、註意力機制和生成模型，這都有助於電腦理解跨越多個句子的概念，並生成更好的回復

4. 交流

4.1. 人類畢竟是社會動物，我們喜歡交談

4.1.1. 我們喜歡把字眼安排在無限變化的句子中，每個句子的含義都略有不同

4.2. 人工智慧能理解文字已經難能可貴

4.2.1. 蘋果的Siri、微軟的Cortana、亞馬遜的Echo和谷歌的Assistant都是人類現有的最復雜演算法的組合

4.3. 用於交流的人工智慧並不總是特別可靠

4.3.1. 只要問它們一些意想不到的問題，或者用系統沒有訓練過的口音提問，即使是精巧的技術也會失敗

4.4. 機器不可能總是聽清每個聲音

4.4.1. 人工智慧會將初始的理解修正為人們更有可能說出來的話語

4.4.2. 畢竟大多數人每天都會說很多相同的話

4.5. 除了幾百萬美元的雲端運算成本外，它們的碳足跡可能與五輛汽車的整個生命周期一樣高

4.6. 雖然人工智慧技術在訓練結束後的套用可能會很高效，但創造人工智慧的過程並不高效或便宜

4.7. 人工智慧的許多最新研究都忽視了效率問題

4.7.1. 因為人們發現規模極大的神經網路對多種多樣的任務都很有用，那些擁有豐富計算資源的公司和機構可以利用這一點來獲得有利競爭

4.8. Tay

4.8.1. 2016年3月23日推出

4.8.2. 微軟在2016年探索過一個方案：利用眾包來提供數據，幫助他們的推特聊天機器人學習

4.8.3. 僅僅16個小時後就被匆忙關閉

4.8.4. 網友教給Tay各種粗話和與毒品相關的語句，然後它順理成章地把這些語句推播給了眾多關註者

4.9. 偽裝成人類的聊天機器人可以給我們發送一些具有針對性的廣告或政治資訊

4.10. 輿論意見可以由此被監測和管理

4.11. 我們獲取資訊的方式也是由人工智慧策劃的

4.12. 推薦系統會監測我們在行動裝置上喜歡閱讀哪些內容，並向我們推播更多類似的內容，讓我們看到的世界變得更加狹窄，由此進一步加強我們的偏見

4.12.1. 那些不受歡迎的政權更容易控制人民，民粹領袖也更容易贏得權力

4.13. 透過人工智慧，才可以真正了解千百萬人民的意見和看法，並幫助政治家和機構更好地滿足人民的需求

4.14. 所有的新技術都可能被用於為善或作惡

4.14.1. 我們需要意識到人工智慧的影響，並確保它得到恰當的套用