江寒在網上搜索了一番,參考了一下同類。
最後他決定,採用市場接度較高的免費下載、試用模式。
超過試用次數和時間后,只要花費58元RMB,購買註冊碼,就可以終使用。
在保護策略上,江寒毫不猶豫地啟了「壞蘋果2代」技。
經過加后,「極OCR」的可執行文件,以及態鏈接庫等要害部位,堪稱堅不可摧。
江寒又用InstallShieldWizard,製作出一個1G大小的安裝包,然後掛到了大江網上。
技上的事,至此全部搞定。
至於其他的事,全盤委託給老江和夏如冰就好……
江寒想了想,又訪問了一下布置在地下機房裡的數據伺服。
過了這麼多天,他為ISLVRC2013圖像識別挑戰賽,打造的深度CNN網路,也終於完了訓練。
江寒將代碼中關於訓練的部分,暫時全部剔除,然後將驗證集數據載進來,跑了一下。
結果還算不錯,top-1項目的識別正確率,達到了62.7%,top-5項目中,更是達到了85.4%的正確率。
所謂top-1,就是對於每張要分類的圖片,只允許給出唯一答案,對就對,錯就錯。
至於top-5,要求就比較寬鬆了,每張圖可以給出5種預測,有一個與標籤相同,就算分類正確。
現在這個績,已經相當接近去年的冠軍演算法了。
但江寒怎麼可能就此滿足呢?
他深思考了一番,重新編寫了預測函數。
這一次,他使用了一個小技巧。
將待分類的圖片載到存中之後,先進行預理。
從圖片的四個角,以及中間部分,依次進行矩形摳圖,這樣就得到了5張子圖片。
接下來,再對這5張子圖片,依次進行鏡像作,子圖片的總數就變了10。
最後再對這10張圖片,分別進行預測,再把10個結果的平均值,作為網路的最後輸出。
這可以有效地防止程序「發獃」,以得到更接近正確答案的預測。
不出所料,使用了這個技巧后,深度CNN在驗證集上的表現,果然改善了不。
top-1上的正確率,足足提高了2%,在top-5上的正確率,也提高了1.84%。
不過,覺還有進一步提升的空間。
江寒思考了一下,又對訓練集圖片的RGB數值,做了PCA,也就是主分分析,並且對主分做了0.1標準差的高斯擾。
這樣做的目的,是增加一些雜訊數據,以提高模型的泛化能力。
理完龐大的訓練集后,就可以讓網路重新進行訓練了。
安排妥當這件事之後,江寒開始考慮學科等級的事。
經過幾天的戰,他已經學完了化學、生兩科,在大學本科階段的全部專業課。
單論理論上的水平,超過了絕大多數相應科目的本科生、甚至碩士研究生。
江寒打開系統UI看了一眼。
學科等級面板上,數學、理、化學、生、信息學,這五個學科全都達到了高級。
其中,信息學的經驗條已經過半,距離下一個級別不遠了。
不過,工程、材料、能源三科,仍然沒有任何評級。
江寒思考了一下,決定在網上找一找這三個專業的教材,深地學習一番。
然而,他很快就發現了一個問題。
所謂的工程,到底是什麼工程呢?
生工程也是工程,電子工程也是工程。
此外還有機械工程、信息工程、採礦工程、石油工程、建築工程……
不搜不知道,一搜嚇一跳,工程學這個總類里,居然足足包括了21個小類,上百個專業!
然後是材料學。
化學材料、生材料、金屬材料、電工材料、材料理……
也是幾乎無所不包!
能源好一些,基本也就是引力能、熱能、生能、化學能、核能……
好吧,既然都是叉學科,那就叉著學唄。
江寒上網查找了一下,將所有涉及到這三科的書籍,匯總、整理了一下,列出了一張非常長的書單。
真的很長,足足有上千種書籍。
好在其中大多數,都能下載到PDF或者Ebook資源。
江寒將這些文件,全都用極OCR,轉換了txt加小圖片的格式,然後流發送到了虛擬空間中,並列印了出來。
也有部分資料,網上本下載不到,這種況,就只能郵購實書了。
江寒在各大網上書店裡,一頓狠淘,終於湊全了列表中的所有書籍。
至於花了多錢,他也沒仔細統計,大概估計下,怎麼也得幾萬RMB。
也就是本科階段的教材並不怎麼難買,很多專業很強的資料也都有中文版。
若是去亞馬遜海淘英文原版,估計再添一個0,可能都不怎麼夠……
※※※
有圖科技,研發部。
藍嶄新再次主持會議。
與會的十來個人,全都陷了死一般的沉寂。
良久后,藍戰新嘆了口氣:「這件事問題不在咱們,你們開發的OCR,已經是國領先的了……」
後面的話,他雖然沒說,可又有誰猜不到了?
那家大江科技,雖然立還不到一周……
然而,誰能想到這家公司手中,竟掌握著那麼厲害的OCR技呢?
王仁默然不語。
那個極OCR的能,實在太恐怖了一點,對於普通文本的識別正確率,竟然超過了98%!
這種技代差,真是讓人越想越渾無力。
國外的同類,沒有一個能與之競爭。
不誇張地說,這就是集被吊打,一點還手之力都沒有……
藍戰新忽然問:「王工,你們技部有沒有試一試,逆向一下極OCR?」
王仁苦著臉,回答說:「我們一發現這款產品,第一時間就下載並嘗試逆向了。」
代碼雖然不能抄,至也應該了解一下別人採用的演算法……
王仁續道:「只可惜……試了很多辦法,全都失敗了。」
藍戰新有點意外。
王仁這些人的實力,他是十分清楚的,能難住他們的加手段,可謂之又。
另一位同事搖了搖頭,說:「我們都懷疑,那是一種從來沒出現過的新加技。」
藍戰新若有所思:「這樣啊……」
寂靜再一次籠罩了這個房間。
良久后。
「咱們接下來怎麼辦?」一名工程師問。
藍戰新思索了一下,嘆了口氣,說:「我先彙報一下,看看顧總怎麼說。」
十五分鐘后。
「我知道了……」
藍戰新掛了電話,掃視了在座的眾人一眼:「我先嘗試和大江的人聯繫一下,看有沒有達合作的可能。」
有圖的主要業務是賣,為了促進掃描儀的銷售,才去研發配套的OCR。
既然自家研發的OCR,能上比不上別人,那爭取合作、取長補短,也在理之中。
如果可以達獨家代理,那麼無論多錢,都一定要拿下來!
這是顧總的原話。
藍戰新看向王仁:「至於咱們研發部,還得繼續努力研發下一代產品。」
頓了頓:「至於目標……暫時先跟極OCR看齊吧!」
在場幾位技大拿的心頭,頓時覺沉甸甸的。
98%!
這個數字,就彷彿一座不可逾越的高山……
※※※
兩天後,深度CNN網路再次完了訓練。
江寒重新跑了一次驗證集,這一次,錯誤率在原來的基礎上,又下降了1%以上。
top-1的正確率接近樂66%,而在top-5項目中,更是達到了驚人的88.8%!
江寒對這個績還算滿意,給這個網路命名為:「JiangNet-3」。
然後登錄ImageNet網,將最終的演算法模型提了上去。
他沒有對代碼進行加,一個是賽事規則不允許,再一個也是沒有必要。
提上去的代碼和數據,只包含網路主架構、激活函數、預測函數,以及訓練得到的權重數據。
至於演算法的核心部分,訓練函數、損失函數和梯度下降……一概予以刪除。
這樣的代碼,本沒有什麼可以抄的。
搞定了這件事後,江寒將目放在了書桌上。
從昨天開始,網購的實書就陸續快遞到了手中。
到了今天下午,終於到齊了。
看著那高高一堆,上百本書籍,他不有點頭疼。
看書不費力氣,一本一本慢慢看,兩、三個月怎麼也看完了。
但如果想加快學習進度,就得把這些實書,全都折騰到虛擬空間里……。
論潛力,不算天才,可玄功武技,皆可無師自通。論魅力,千金小姐算什麼,妖女聖女,都愛我欲罷不能。論實力,任憑你有萬千至寶,但定不敵我界靈大軍。我是誰天下眾生視我為修羅,卻不知,我以修羅成武神。等級靈武,元武,玄武,天武,武君,武王,武帝,武祖楚楓楚月小說別名修羅武神。 楚楓
別名:我靠玄學直播爆紅地府,玄學直播后爆紅陰陽兩界 《靈事》是檔熱度頗高的通靈網綜,只可惜是全網嘲的熱。節目中的嘉賓們被扒出都是假神棍,做法如抽風,常因毫無下限的惡搞被罵上熱搜。但沒人知道,這節目在陰間火得一塌糊涂。每每開播,數十億陰曹鬼魂守在節目前點評——“這廝血口噴人,那生魂明明是拘魂鬼…
天星大陸,武道為尊,弱者淪為螻蟻,而強者凌駕於天地之間,少年身攜天火,逆天而為,踏海碎山,順者昌,逆者亡,天上地下,唯我獨尊
【系統】+【穿越】+【苟】 徐凡穿越玄幻世界,獲得永生系統。 而系統唯一的作用便是為他增加壽命 今日跑步:獲得壽命+2天 今日打拳:獲得壽命+3天 今日練習踢腿:獲得壽命+5天 ......... “君子報仇,五百年不晚。” 等徐凡五百年,再次找到仇人時。 唯一能做的便是在對方的墳頭上蹦迪。 提問被仇人暴打之後,仇人又死了怎麼辦? 答:娶了他的重孫女 獨坐無盡歲月長河,看王朝更替,滄海桑田。
【爽文+非單女主+殺伐果斷+大佬出山】蘇澈穿越到異世界,一朝頓悟進入圣地。在剛剛邁上人生巔峰之際,竟然覺醒了擺爛系統,第一個任務就是擺爛500年!從此,他再也不