第72章 教育數(shù)據(jù)挖掘
許是前一天下午睡覺摸魚被周詩亦逮個(gè)正著,李洛今天一上午都在亦舟上躥下跳,抓人開會請教技術(shù)問題。林語一直溫溫柔柔地回答著,讓李洛很是滿意。
李洛順著筆記問道:“我不太理解的是,教育數(shù)據(jù)挖掘(Educational Data Mining,EDM)和學(xué)習(xí)分析技術(shù)(Learning Analytics,LA)的主要區(qū)別在什么地方呢?兩者不都是利用學(xué)習(xí)過程中產(chǎn)生的大量數(shù)據(jù)來分析反饋學(xué)習(xí)成果嗎?”
李洛和涂世欣正擠在林語的卡座旁,各自抱著電腦做著會議記錄。
林語的辦公桌上整齊地疊放著各類書籍和論文資料。涂世欣掃了一眼,書籍包括了計(jì)算機(jī)數(shù)據(jù)結(jié)構(gòu)、算法、圖論、離散數(shù)學(xué)、概率論和統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)等等科目。桌子右上角邊上還堆放著各種打印好的文獻(xiàn),用彩色標(biāo)簽分門別類地歸檔了。
涂世欣低下頭,瞄了一眼自己靠放在桌角地上的黑色書包,里頭幾份打印資料毫無章法地穿插在一起,一本隨身背著英文原版《大空頭》是李洛推薦的金融趣味科普讀物,書角都磨破了,但是自己從來沒能一口氣讀過十頁以上。他突然對于自己能有這份工作倍覺珍惜,感激地瞧了李洛一眼。
林語笑了笑,解釋:“你提到的這點(diǎn),正是二者共通之處。至于區(qū)別,從研究方法上來說,學(xué)習(xí)分析技術(shù)更注重運(yùn)用統(tǒng)計(jì)學(xué)手段主觀地分析數(shù)據(jù)、人為做出推斷,為傳統(tǒng)教學(xué)方式配備了數(shù)據(jù)反饋?zhàn)鳛橹С?;而教育?shù)據(jù)挖掘強(qiáng)調(diào)自適應(yīng),會傾向于使用無監(jiān)督或者半監(jiān)督的機(jī)器學(xué)習(xí)算法。
“從應(yīng)用角度來說,學(xué)習(xí)分析技術(shù)的主要目的是對學(xué)生的學(xué)習(xí)結(jié)果進(jìn)行測驗(yàn)和監(jiān)控,為教師提供更詳細(xì)的學(xué)生數(shù)據(jù),從而改進(jìn)教學(xué)方法。而教育數(shù)據(jù)挖掘更注重學(xué)習(xí)行為和學(xué)習(xí)過程,意圖對行為本身進(jìn)行量化分析。如果你感興趣可以去找一下卡耐基梅隆大學(xué)教授Ryan Baker的論文,里面有相當(dāng)詳盡的對比?!?p> 除了那教授的名字涂世欣沒能聽清楚,他飛速地把這幾句話一字不差地敲在了電腦上。偶爾他打字的速度跟不上林語說話的節(jié)奏,林語還貼心地放慢語速,等了等他。
涂世欣敲完一段后,偷偷瞄了一眼李洛的屏幕,發(fā)現(xiàn)李洛只是簡略地記了兩行。
“學(xué)習(xí)分析技術(shù)(LA):人為分析、主觀、輔助教學(xué)手段。”
“教育數(shù)據(jù)挖掘(EDM):自適應(yīng)、無監(jiān)督模型、行為數(shù)據(jù)挖掘。”
在最下面,李洛記下了“Ryan Baker”的名字。涂世欣又快速把這位教授的名字補(bǔ)填在了自己筆記的空檔里。
李洛好奇地問:“可不可以給我講一個(gè)教育數(shù)據(jù)挖掘在行業(yè)里具體應(yīng)用的例子呢?”
林語點(diǎn)頭,“比方說,現(xiàn)在有一個(gè)選擇題有四個(gè)選項(xiàng),C是正確選項(xiàng),其他都是錯誤的。傳統(tǒng)的考試批改方式,老師會這么判斷:如果學(xué)生選擇了C,他對這個(gè)知識點(diǎn)的理解就是正確的;沒有選擇C,則判斷學(xué)生還沒有熟練掌握這個(gè)知識點(diǎn)?!?p> “嗯!”李洛睜著大眼睛十分感興趣。
林語笑著繼續(xù)說道:“考試排名依照答題結(jié)果來評分,無可厚非。但也許有的同學(xué)偶爾粗心,實(shí)際上扎實(shí)地學(xué)懂了這個(gè)概念,卻手滑填寫了B作為答案;也有同學(xué)只是運(yùn)氣很好,隨機(jī)選了個(gè)C,恰好答對了。學(xué)習(xí)系統(tǒng)接下來該如何自適應(yīng)調(diào)整個(gè)性化的學(xué)習(xí)路徑,還是需要AI形成更深層次的判斷?;谪惾~斯網(wǎng)絡(luò)的學(xué)生知識點(diǎn)追蹤模型,可以根據(jù)測試題前后其他習(xí)題之間的聯(lián)系來推測學(xué)生是否真實(shí)掌握了這個(gè)知識點(diǎn),從而盡量避免無效的學(xué)習(xí)時(shí)間,也盡量防止被遺漏的知識點(diǎn)?!?p> “哇,這么厲害?”另外二人異口同聲地感嘆道。李洛好奇地看了一眼實(shí)驗(yàn)室的方向,問道:“那我可以試一下嗎?你們都有什么科目的測試題?”
涂世欣戳了戳李洛,“洛姐,時(shí)間有限,人家還有其他工作呢?!?p> “哦,對不起?!?p> 林語笑著說:“歡迎你隨時(shí)來實(shí)驗(yàn)室玩。其實(shí)我舉的這個(gè)例子,已經(jīng)是學(xué)術(shù)界二十多年前的研究成果了,不怎么前沿。今天早上周總還嫌棄我們……”
李洛已經(jīng)跳到了一下個(gè)問題:“剛才你提到的貝葉斯知識追蹤,實(shí)時(shí)調(diào)整學(xué)生學(xué)習(xí)路徑,其實(shí)要優(yōu)于GRE、ACT這種考試測評體系,因?yàn)楹笳邇H僅是基于單項(xiàng)回答結(jié)果,而不基于知識網(wǎng)絡(luò),對嗎?”
這個(gè)問題提得不錯,林語坐直了些,解釋道:“你說得很對。GRE、ACT只是根據(jù)學(xué)生每道題是否回答正確,從題庫中調(diào)出相應(yīng)難度的題。而我剛才所說的,能夠綜合整體知識圖譜,推薦優(yōu)化的學(xué)習(xí)任務(wù)?!?p> “明白了?!崩盥妩c(diǎn)頭,“還有一個(gè)問題。之前也討論過圖形編程工具的專利收購的事宜,所以我想再跟進(jìn)一下公司本身各部門的知識產(chǎn)權(quán)保護(hù)情況。這幾個(gè)月來,有沒有發(fā)生什么變動?算法技術(shù)方面,專利管理還是各部門獨(dú)立負(fù)責(zé)的嗎?”
林語說:“我們也在考慮是否應(yīng)該將技術(shù)專利集中管理起來,統(tǒng)一公司的專利質(zhì)量。但是目前仍舊是各技術(shù)團(tuán)隊(duì)自己負(fù)責(zé)?!?p> 她的回答相對簡潔,于是涂世欣在電腦上寫下:“目前各技術(shù)團(tuán)隊(duì)獨(dú)立管理專利?!?p> 可是他看到李洛在電腦上記錄了很長一段話:“繼續(xù)跟進(jìn)與收購目標(biāo)企業(yè)的知識產(chǎn)權(quán)整合策略,技術(shù)重疊度、集中管理或是業(yè)務(wù)單元管理模式、國家/地區(qū)應(yīng)用范圍等問題。與律師團(tuán)隊(duì)保持聯(lián)系?!?p> 涂世欣覺得李洛還不如帶個(gè)錄音筆,或許比帶著自己更有用!
李洛這時(shí)候又問:“最后一個(gè)問題。目前數(shù)據(jù)模型架構(gòu)上,有沒有什么潛在的風(fēng)險(xiǎn)或是困難呢?”
林語此時(shí)面露難色,沒有直接回答。
李洛考慮到她作為技術(shù)人員,可能拿不準(zhǔn)什么內(nèi)容可以和外人說,哪些方面不能提,于是解釋道:“這只是投資人通常會有的考量之一,畢竟算法是你們的核心。比如說最早來亦舟的項(xiàng)目時(shí),Allison和我提過,業(yè)界有一些領(lǐng)頭企業(yè)在研究通過捕捉學(xué)生的注意力、情緒等等來分析學(xué)習(xí)積極性和知識趣味性。但是會有潛在的難關(guān),比如說面部微表情的捕捉、動作追蹤等等。我想問的……”
隨著李洛的敘述,林語的表情越來越委屈,眼眶竟然紅了起來。李洛趕忙住了嘴,愕然地看向涂世欣,用口型問:“我說錯什么了?”