顯示廣告
隱藏 ✕
※ 本文為 terievv 轉寄自 ptt.cc 更新時間: 2019-05-10 11:31:14
看板 Browsers
作者 karst10607 (八卦板廢文者聯盟)
標題 Re: [介紹] AdGuard 瀏覽器擴充功能
時間 Fri May 10 00:31:47 2019


嗨,安安大家好
正巧這系列都是我專業的內容,我來解釋一下為什麼會有"遠古-機翻"的感覺
現在不想碰工作的東西了,就出來教學一下順便看能否把這系列close掉
如果有相關領域的人想找我,非常歡迎,我很孤單

首先現代中文和現代英文都是SVO語言,已經演化成"分析性語言"了
就是主詞+動詞+受詞,這樣的文法結構

(以前的中文和英文並不是,尤其中文本來就不是分析性語言,是近代才慢慢變化的
所以很多文法的概念,都是從拉丁語等嚴謹的分析性語言,難以直接套用上去
比如時態的變化、名詞單複數、主格、受格人稱變化等等
英文(日耳曼)的文法分析也是只取用一部分的拉丁語文法來作,
同樣的羅曼語系或斯拉夫也是)

d大的翻譯是典型的1 to 1 mapping,也就是把出現機率最高的各詞組直接套用上去
這是典型的古代機器翻譯
說精準,也不能說是精準,只能說是一個蘿蔔一個坑照著塞
但這就不能翻譯kick a bucket或ejaculated half a dozen times之類的用語

(前者是俗語,死掉-蘇州賣鴨蛋的意思,
後者不是射了6次/半打這樣精確的數字,而只是講射了好幾次
典故來源是 佛洛依德的某一篇論文,提到某個患者半夜夢遺了
但大家都知道夢遺或強制射也不可能一夜六次郎

所以這很明顯是一種稍微誇大的"好幾次"
不過研究所時某個女同學還是很認真的翻譯上台報告了,"該患者當晚夢遺射精了六次"
所有人應該都知道.....這是明顯的謬誤,不是佛洛伊德的本意)
以上這幾個情況,都證明了,語言的意思並不是只有"文法"能夠決定
語氣、情境、上下文、俚語、隱喻、種種不特殊的情況,
都能讓意思不是文法上看起來的那樣
但以前的機器就做不到這點,他只會照翻


好,回到分析性語言。今天中文和英文是SVO結構
所以你說照著把詞義一個不漏的翻譯上去是最精準的
那碰到古英文(莎翁之前的)或現代日文呢? 他們的語法結構是SOV (主詞+受詞+動詞+否定)

比方說  我不吃橘子,在日文 就是  "我 橘子 吃 不"

那你今天這樣照著分析性語言的文法結構翻譯,是不是很像古代的機器翻譯呢?
這只是因為剛好都是SVO的結構,所以照著塞這種作法好像短句還行
碰到OVS(像是Yoda大師的語言、克林貢語、或是地球上少數OVS的語言)
你今天的翻譯就變成
"橘子 不 吃 我"了
顯然不是那句話原本的意思


或是貝武夫的古英文(維京人那裏來的參雜古德文)
一堆 SOV 句法翻譯到今天的語言,用文言文格式都還不一定能模仿三分

英文聖經裡面有King James version的Bible
也有其他的"欽點版本"
今天他會成為正統Orthodox,就是因為大眾的接受度高,以及歷史政治因素
比如英國國教派的出現原因等,只是因為國王想再娶但不想被羅馬教皇給拒絕證婚
(我們不談各教派之間的差異或各宗教本質上的差異)

AdGuard今天真的已經欽點了一個繁體中文的版本嗎?
那為什麼大眾的接受度卻那麼低呢?

要不要想想看,這是遠在地球另一端的人不知道這邊中文大眾使用者的心聲
還是有其他因素存在
比如除了d大以外的人,大家的中文都有問題?

沒有人否認d大付出的心血和精力,那種經歷就像是K和Joi之間的感情
可以參考拙作"真偽,或者真偽根本無所謂"
http://fall-cicada.blogspot.com/2019/03/blog-post_27.html

Tech writing作的越久,會越發現"真"已經不是第一重要的了
雖然這點很可悲,tech writer和其他creative writer的差異不就是在於
"精確且實用正確傳達使用方式和開發文件的紀錄"
從事越久,會發現自己所追查和追求的真,往往只是被拿來掩蓋"真"
畢竟資訊是情報,情報是資產,給user和internal developer, 股東、大小主管的資訊
不會是一樣的
每個單位拿走資訊以後,往往是刻意添加假的和錯誤的東西進去,以保護自己存在價值

唯一能撫慰自己的,只有"至少正在看文件的人,不管是股東或user, RD
都能拿到它們正好需要的正確資訊"
而努力撰寫破譯組裝知識庫的這個過程對我而言就是一場完整的成長和旅行

我只能祈求他們不是拿這個來壓榨、欺瞞、利用或鬥爭他人,
這是tech writer最基本的良心和職業道德
絕不洩密,但也不誤導需要資訊的人



第二個主題,我要說的是thematical roles 和 nomimal subject的差別
一個是一段文字中的主題,另一個是文法名義上的主詞
前者可以透過好幾個完整中長句去傳承去解釋完畢
後者則是有嚴格的一個句只有一個主詞格規定


對台灣人而言,英文文法的重要性,大概是國中時期建立起來,高中複雜化
大學就忘光光
一直到研究所階段,所有人的英文程度還是停留在國中八大詞類的認識上
只有英語教學相關的人,或是論文讀寫很多的人,會發現嚴謹的英文不是這樣寫

也就是"主詞"雖然承載了句子文法名義上的主角,但往往句子的重點都是放在後面
用虛主詞it或其他方式把很長的重點放在類似受詞的位置了
這也導致了文法、文義重點並不重疊的情況。
寫論文當然符合文法,但每一次的新句要怎麼把重點和推論、得證用合乎邏輯的方式
像是傳球一樣傳給下一個虛主詞(以及下一個thematical roles)
這才是寫論文難的一個小地方
畢竟句和句推論或論述如果有斷層或矛盾,這文章就是爛和假。
這點很類似數學證明邏輯,也是法律為什麼這麼難的原因

除此之外,還有形式語法學派 (Construction grammar)提出的不同分析方式
以及更近代的Neoro-linguistic (神經語法學派)
可以讓你跳脫傳統拉丁語法以來的見解,語言是人大腦的產物
他不是死硬被釘在教科書裡面的八大詞類

甚至還有更激進的HPSG學派,一直試著語言證明一切的一切(文法結構上的核心)
都是存在於類似"the"這樣的指定詞裡面,而不是傳統認為的動詞
這個學派的研究隱隱導出的結論是,文法和文意根本是兩個不搭嘎的東西,是獨立存在的
那照這樣下去研究文法到窮盡會得到什麼呢?
豈不是一切成空
比較像是虛數的數學領域,而不是一般大眾可以使用的實數數學吧?
也許要一百年以後的科技或其他意想不到的領域才會運用到這塊成果。

他們確實提出了一些實證,有興趣可以查"政大 何萬順 教授"
希望老師不會記得我,畢竟我只是一個曾經暫歇政大的過客
不想給任何老師添麻煩或丟臉了

給大家稍微看一下自然語言分析(NLP)是怎麼作的

https://universaldependencies.org/ru/dep/nsubj.html

https://universaldependencies.org/zh/dep/nsubj.html

電腦眼中的句子和我們看到的很不同,所以還是需要很多很死的規則去作權重
但權重出來以後的結果看起來卻像是人類的思考結果
其實路思考徑完全不同
最常見的是HMM (Hidden Markov Model)

按照前面說的,如果分析性語言用POS(part of speech 詞性)去切詞組
和相依分析(dependency)
每一個POS都用HMM去抓對照前後和全句最有可能的解釋,而不是按照整本字典內出現機率
這樣看起來會比較像樣,也就是近代的機翻

不是用設定好的一個詞一個對硬塞進去
另外,翻譯最重要的是除去干擾,也就是任何不能表達theme的東西都移除


有興趣的歡迎參與Spacy專案
https://spacy.io/
是一個自然語言分析的python套件,一個紐西蘭人到德國作的適用各種語言分析的工具
我本來啥程式語言都不會,直到機緣巧合我決定投入這塊努力(業餘興趣)
希望幾年後的研究成果能驗證我的假說和直覺

我只是一個曾經念過英語教學所和英美文學外文所的可憐人
都沒拿到碩士
但教過不少學生(國小國中高中、閱讀障礙、盲生、過動都教過...)
我網路速度太慢了  還有其他相關的主題,像是強迫症(OCD)或聯覺(Synesthesia),
Dyslexia(閱讀困難), Haptic Immersion(觸覺沉浸)

如果有人有興趣想聽,以後再說吧
我是自稱"聯覺者"的前英文老師,而這很可能跟我青春期的OCD有關係而隨之發展出來

這已經不是Adguard相關的,只是NLP或禪、Universal Grammar(Chomsky的學說)
對教授而言,我只是一個沒有利用價值的人,畢竟我追求的東西不專精也不產他的論文
我只是一直傻傻地作和付出給身邊的人,沒有付出給吸乾你血肉的學術界
但對我和某一些特殊族群而言,我們確實是在追求真相
而這個真相或追求的過程,是對社會大眾有幫助和意義的


希望d大放下我執,也釋出讓人參與的善意。
畢竟我沒有辦法再拿出一個小時討論了。
但人都希望自己在這個世界上不是孤獨的,
自己的遠大目標同時也是更大的群體的共同目標。
這時候就要拿出善意,讓大家能參與、驗證並指出錯誤所在了。

--
Fx Op Sa GC IE Ma SL GB


歡迎到Browsers板 - Your Web, Your Choice.

                       Take Back the Web, The Better Internet Experience.

--
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 101.136.34.58
※ 文章代碼(AID): #1Sr5Ntma (Browsers)
※ 文章網址: https://www.ptt.cc/bbs/Browsers/M.1557419511.A.C24.html
karst10607: 題外話 大家不要再增加版主的困擾了 板龜不是釣魚用的1F 05/10 00:33
Adven: 怕是d大又被"古代機器翻譯"這幾字戳到..2F 05/10 00:36
tom282f3: 未看先推3F 05/10 00:37
tom282f3: 看完了 太專業了... <(_ _)>
cruchoco: 推推5F 05/10 00:40
WFXX: 先推妳這篇專業文,然後繼續跳針,嘻嘻6F 05/10 00:42
※ 編輯: karst10607 (101.136.34.58), 05/10/2019 00:53:30
g5637128: 推7F 05/10 00:54
kenwufederer: 大家都想幫忙,可惜…8F 05/10 01:28
chuegou: 推個9F 05/10 01:45
yesonline: 推! 其實應該朝社群協作翻譯方向前進的.10F 05/10 01:53
chuegou: 熊熊想起了之前看到關於道本語和機器翻譯的一些介紹11F 05/10 01:59
art1: 這麼專業的文章只會被他跳過,情況一樣不會變12F 05/10 05:59
crescent3: 專業的一出手就是不一樣 瞬間自覺班門弄斧 (跪13F 05/10 07:16
s83106: 推14F 05/10 07:44
mihonisizumi: 唉希望能結束這個系列15F 05/10 08:11
nimiq5566: 很棒~專業文16F 05/10 08:13
goldie: 好專業!推.... <(__ __)>17F 05/10 08:58
midxnqx: 聽得進去 我剁18F 05/10 09:02
gohome0083: 太專業了,推一個19F 05/10 09:04
企鵝家族S2 第六話 - YouTube
Robby帶了冰壺來找Pingu玩,Pingu偷偷把熱水袋帶了出去要和Robby一決勝負。但是Pingu輸給了Robby後一氣之下把熱水袋丟了出去卻砸到了叔叔!

 
ga2080: !!!21F 05/10 09:17
MilchFlasche: 專業推22F 05/10 09:37
carlos017: 推專業,希望不要無限輪迴了:皮卡丘跳舞100分鐘23F 05/10 11:02

--
※ 看板: terievv 文章推薦值: 0 目前人氣: 0 累積人氣: 76 
作者 karst10607 的最新發文:
  • +12 [問題] Zenfone6 記憶卡常出現格式化通知 - MobileComm 板
    作者: 113.147.224.69 (日本) 2023-08-23 10:31:38
    71F 12推
  • +4 [請益] 日本Mercari的審查速度 - Soft_Job 板
    作者: 101.12.53.31 (台灣) 2023-04-05 12:03:08
    22F 4推
  • +21 [問卦] 閩南語對於甜鹹的味道描述 - Gossiping 板
    作者: 101.12.47.82 (台灣) 2023-03-26 21:46:10
    我知道,甜,甘味的對應 但還有一個發音類似,正或醬的,是形容味道很好吃 發音類似。jiyah 四聲 有人知道那是什麼口味嗎?是鮮味或是鹹味? 我查教育部字典沒查到類似的,難道是客家話的轉音 有相關的 …
    36F 21推
  • +13 [閒聊] 與睿能gogoro的調解 - biker 板
    作者: 124.218.45.56 (台灣) 2021-05-08 11:24:59
    大給後 因為我即將和睿能做調解,我自己發生過的危險寫在這裡 這裡想順便收集大家想要問Gogoro 睿能什麼問題 但我不確定調解的時候能否幫忙問就是了 (我猜是不能,他應該會說都是個案) 我也不確定是否 …
    29F 13推
  • +21 Re: [介紹] AdGuard 瀏覽器擴充功能 - Browsers 板
    作者: 101.136.34.58 (台灣) 2019-05-10 00:31:47
    嗨,安安大家好 正巧這系列都是我專業的內容,我來解釋一下為什麼會有"遠古-機翻"的感覺 現在不想碰工作的東西了,就出來教學一下順便看能否把這系列close掉 如果有相關領域的人想找 …
    23F 21推
點此顯示更多發文記錄
分享網址: 複製 已複製
r)回覆 e)編輯 d)刪除 M)收藏 ^x)轉錄 同主題: =)首篇 [)上篇 ])下篇