滾動信息:記得有個笑話,講老師要小明用“如果”造句,結果小明說“蘋果不如果凍好吃!” 這為什么是一個笑話呢?我們從邏輯上分析一下。
首先,造句的邏輯要求是:“編造一句話,這句話中包含指定的詞”,從這個要求來看“蘋果不如果凍好吃”,當中包含了“如果”,那么這個造句就是合格的,但是為什么大家覺得可笑呢?那是因為從語義的角度理解,“蘋果不如果凍好吃”,當中是“不如”和“果凍”兩個詞拼湊出了“如果”,而全文的含義中并沒有包含“如果”。
這里就不得不引入一個叫做”分詞“的概念了,分詞,就是根據語義,把句子中的詞匯提取出來。一個句子,按照語意的邏輯分段,從大到小應該是句讀、詞、字,句讀是用標點符號劃分的,詞是字組成的語義單元,字就是單個漢字。古文中,甚至連標點都沒有,唐代韓愈的《師說》中就有“句讀之不知,惑之不解,或師焉,或不焉,小學而大遺,吾未見其明也?!?,“以字成詞”是中文特有的,因此這也給中文分詞帶來了難度。而拼音文字就沒有這個問題,比如“helloworld”我們根據單詞就能提取出“hello”和“world”兩個詞。
中文分詞比較困難,目前還不能完美實現機器自動分詞,但是并不表示無法實現,只要基于中文詞庫,詞頻,還有一些專業(yè)數據,比如某個詞的專業(yè)度,常用度等,有很多專業(yè)的術語,我不記得了,這里也不展開。
下面做一個有趣的實驗,打開微軟的word,輸入文本“蘋果不如果凍好吃”,然后你用鼠標嘗試在各個漢字上雙擊,唉?是不是會自動選中詞語?你會發(fā)現,你在“如”上雙擊,會選中“不如”,在“果”上雙擊,會選中“果凍”,不論你在哪里雙擊,都不會選中“如果”!這樣看來,看似簡簡單單的一個word,居然已經引入了中文分詞的概念,是不是讓你對word有了重新的認識?

在“如”上雙擊
在“果”上雙擊
然而就是這樣一個word中已經有了十多年的功能,在百度里卻沒有。2015年,7月18日的太倉畢業(yè)生招聘會將在太倉明德高級中學舉辦,我一位太倉人才網的朋友讓我?guī)退麨榇司庉嬕粋€百度推廣,從而更好的宣傳這次活動,于是我在百度推廣后臺編輯并提交。結果提交時提示我的內容觸犯什么保護條例,資訊客服后,得知“德高”二字被品牌注冊保護了。這真是讓人哭笑不得,“太倉明德高級中學”,根據漢字分詞,應該是:“太倉,明德,高級中學”,語義上是沒有包含“德高”二字的。使用簡單的字符串比對來過濾是最簡單粗暴的做法!
我還是很懷念谷歌的。而一個公司,一個產品,靠各種關系,依托“官方”來打壓競爭者坐上頭把交椅的,沒有居安思危的意識,怎么可能希望他可以進步呢?
陽光浪子
2015年6月9日


