黑心湖。the black lake: 2019年書單：《動手做深度強化學習（Deep Reinforcement Learning Hands-On）》

《動手做深度強化學習》
中譯本出版社：博碩文化
原文書出版社：Packt
作者：Maxim Lapan
翻譯：劉立民

圖片來源：博碩文化

本篇~~落落長的~~閱讀心得在博客來有「濃縮版／精簡版」喔～:P
https://www.books.com.tw/products/0010838944

我大約是在去年的這個時候進公司的，如今也滿一年了，但我還是要堅稱自己是菜鳥嫩編（喂！）

我是在誤打誤撞成為IT書的外版編輯之後，才知道有Packt這間出版社的。至今前前後後也編輯了3本Packt的書，主題分別是AWS、OpenCV和這本強化學習。（參閱文章：【紀錄】編輯過的書籍作品）

由於我非理科背景出生，就算自信滿滿地認為英文理解不是問題，也不敢「打腫臉充胖子」不懂裝懂、說自己真正理解這些（五花八門的）專業知識。這時候，譯者的專業有多「深」，就決定了我整稿／修潤／校對時的難易程度。

編輯一本書的旅程，是攀岩、浮潛、跳火圈，或是悠閒漫步在奼紫嫣紅的花園之中，還真得看譯者交來的「初稿」，究竟是塊未經琢磨卻潛力無窮的原石、還是一顆無可救藥的「怪石」呢！（請參考這篇特別有趣的歌詞改編：老編垚順的出版手帳的【老編掰歌　奇怪的章節（翻譯不順篇）】）

《動手做深度強化學習》的譯者劉立民教授就是屬於前者，另有翻譯《Python深度學習》和《Python機器學習》這兩本書。因為他有豐厚的專業學術背景，於是我就能將心思專注在「語句的修潤」上，無須一直在「滿腹疑問」的泥沼裡掙扎。真要比喻的話，原文書本身的主題就像是一塊「土地」，那些文字敘述、圖片表格、程式碼區塊…等等，就像是放置在土地上的「素材」，如花草樹木，如原石雕塑，如小橋流水。作者提供了「設計藍圖」，經譯者之手，將這些素材擺放整齊，呈現出花園的初始樣貌，而確認這些素材擺放正確，將枝葉修剪整齊，使石面平滑，移除雜草萎葉，或稍微調整「順序」，點綴「連接詞」，使之符合中文「語境」…在精確中追求精緻，這，就是編輯的任務了。

（抱歉，最近在讀小說《夕霧花園》，整個入戲太深無法自拔，簡直入魔了哈哈哈哈～～但我真心覺得拿庭園設計來比喻編輯這份工作，是頗貼切。）

《動手做深度強化學習》就是屬於不太需要擔心「擺放是否正確」，但要稍微花點時間「修剪枝葉、拔除花瓣」的例子。而我前一本編輯的、也是由專業人士翻譯的VMware vSAN 6.7 U1 Deep Dive 中文版，也是類似的情況，讓我深深體會到，遇到譯者專精且熟悉的主題，確實能幫編輯省下不少查證／查資料的時間呢！

而我之所以花時間和心力細細修剪，就是想要呈現「編輯主觀認定」最適合讀者閱讀的「景緻」。修著剪著，倒也「整理」出了一點樂趣和心得，特別針對幾章的特色（及主觀認定的優缺點），跟各位分享：

xxxxxxxxxx

🌺前言

很多人都習慣略過前言不讀，但我覺得《動手做深度強化學習》的前言還滿值得一讀的。作者簡述了他為何想寫這本書的動機，他認為，許多學術研究的資訊都太過「深奧」、太過「抽象」了，而網路上的文章又受限於篇幅，往往不夠深入，他希望這本書能夠取得這兩者之間的平衡，為讀者提供實用／實作的資訊（而非只是虛無飄渺的理論）。

🌺第1章：什麼是強化學習？

本章是我最喜歡的章節，因為我只看得懂這一章（喂！）名副其實，本章就是在解釋何謂強化學習，其定義、形式、組成…什麼是代理人（Agent）？什麼是獎勵（Reward）？作者利用許多有趣的比喻（如page007訓練小狗和page014~018呆伯特的工作日XD），讓抽象的概念變得淺顯易懂。

🌺第2章： OpenAI Gym

本章有提到一些軟體和硬體需求，建議還是看一下。

🌺第3章：使用PyTorch來做深度學習
🌺第4章：交叉熵法
🌺第5章：表格學習與貝爾曼方程式
🌺第6章：深度Q網路
🌺第7章：DQN擴充

坦白說這幾章我是有看沒有懂，哈哈哈～只知道有滿滿的數學和程式碼，校對到眼神死（窘）雖然作者說「統計和機率」的理解並非絕對必要，但我覺得還是要有點數學底子才能理解這幾章到底在幹麻…印象最深刻的是（篇幅超長的）第7章，光是整理好的word檔就有70多頁，譯稿初稿看了整整4天還看不完，然後內容又一點也不吸引人，根本貨真價實的「文字地獄」（誤）

🌺第8章：以強化學習法來做股票交易

這一章最短，又跟時下流行的股票有關，但本章不會教你發大財，本章是給你一個概念，原來「代理人」連買賣股票也能玩！

🌺第9章：策略梯度－另一個選項
🌺第10章：行動－評論者方法
🌺第11章：非同步優勢行動－評論者

這三章又回到滿滿的數學和程式碼，喜歡實作的讀者，這本書有滿滿的程式碼，千萬不要錯過嘿！（再次提醒，GitHub和博碩官網都可以找到完整程式碼喔。）

🌺第12章：以強化學習法訓練聊天機器人
🌺第13章：Web導航
🌺第14章：連續行動空間
🌺第15章：信賴域策略－TRPO、PPO與ACKTR
🌺第16章：強化學習中的黑箱優化
🌺第17章：超越無模型方法－想像
🌺第18章：AlphaGo Zero

這七章就有趣了；就我主觀的認定，這七個章節才是本書的精髓。如果讀者已對深度學習、機器學習和強化學習等有一定程度的理解（和實作經驗），那麼或許可以直接閱讀這七個章節，挑戰一下。其中我個人覺得最有趣的大概就是：

＊第12章的聊天機器人，其核心是在「電影對話數據集」上訓練「以娛樂為導向的機器人」；
＊第15章的兩個Roboschool環境，我偷偷暱稱它們為長得像蜘蛛的螞蟻（RoboschoolAnt-v1）以及「不要再裝了你根本就是點心麵」的半獵豹生物（RoboschoolHalfCheetah-v1），翻翻page410的圖你就會知道我在說什麼了哈哈～；
＊第18章討論知名的AlphaGo和AlphaGo Zero，看完本章才知道究竟是怎麼一回事。而google了一下，現在居然還有與《星海爭霸2》玩家對抗的AlphaStar了，天哪，《銀翼殺手》的科幻世界會在我變成老阿嬤之前成真嗎？！

🌵索引🌵

是的，本書有索引，所以可以按圖索驥找到想讀的內容。這是我第一次做索引。因為土法煉鋼地「人工核對頁碼」非常辛苦，所以我要特別提一下（我最自豪的）這幾頁。不過說老實話，希望以後不要再做索引了（嗚）

xxxxxxxxxx

☕本書適合：

懂Python，且對深度學習和機器學習有一定理解的讀者。
有購買博碩出版的《Python深度學習》和／或《Python機器學習》，且想更深入了解強化學習的應用的人。
市面上強化學習的書籍不算多，編輯我不敢保證讓每一位讀者都100%滿意，但以譯者和編輯投入的程度（尤其是嫩編我的血汗交織！），我能問心無愧，本書肯定物超所值。

☕購買連結：

天瓏網路書店：https://www.tenlong.com.tw/products/9789864344307
博客來：https://www.books.com.tw/products/0010838944
金石堂：https://www.kingstone.com.tw/new/basic/2013120524293

xxxxxxxxxx

國鳳
Nov. 18, 2019

黑心湖。the black lake

2019年11月8日星期五

2019年書單：《動手做深度強化學習（Deep Reinforcement Learning Hands-On）》

沒有留言:

張貼留言

2019年11月8日 星期五

2019年書單：《動手做深度強化學習（Deep Reinforcement Learning Hands-On）》

沒有留言:

張貼留言

2019年11月8日星期五