首頁(yè) 都市

穿越：2014

第82章領(lǐng)先一代半的算法

穿越：2014 豬熊 1434字 2022-01-25 19:41:40

　　而此時(shí)處在輿論漩渦之中的林灰在干什么呢？

　　當(dāng)然是在廢寢忘食地查閱那些跨越時(shí)空的“參考資料”。

　　這里面有價(jià)值的信息太多了。

　　很多在后世平平無(wú)奇的東西放到眼下這個(gè)時(shí)空中都是亂殺的存在。

　　但林灰沒有被激動(dòng)的情緒所左右。

　　因?yàn)榱只沂冀K清楚領(lǐng)先半步是先驅(qū)，領(lǐng)先一步是先烈。

　　技術(shù)真領(lǐng)先個(gè)一年半載還好說(shuō)，冷不丁一下子領(lǐng)先別人四五年就出大問(wèn)題了。

　　只有能夠契合14年這個(gè)時(shí)代背景的技術(shù)才是林灰尋找的有價(jià)值的東西。

　　在前世那部ThinkPad里幾乎沒翻找多長(zhǎng)時(shí)間。

　　林灰就找到了他的獵物：

　　——生成/抽取復(fù)合式新聞?wù)惴ā?p>　　這種算法在前世并不算特別新鮮的玩意。

　　林灰之所以看中它是因?yàn)檫@個(gè)算法成熟。

　　某種程度上成熟就意味著穩(wěn)定、性能可靠。

　　林灰?guī)缀醪恍枰俳?jīng)過(guò)額外的調(diào)教就直接拿這種算法開發(fā)之前他構(gòu)想的那個(gè)新聞?wù)浖?p>　　當(dāng)然了，這個(gè)算法也只是在前世那個(gè)時(shí)空不算新鮮而已。

　　放到14這個(gè)時(shí)空里，依舊是領(lǐng)先的技術(shù)。

　　只領(lǐng)先一點(diǎn)點(diǎn)，有用嗎？

　　不要說(shuō)領(lǐng)先一點(diǎn)了，就是領(lǐng)先半點(diǎn)。

　　也照樣讓你絕望！

　　你沒打破我壟斷之前，我各種高價(jià)訛詐賺取巨額利潤(rùn)。

　　你打破我壟斷了，我直接白菜價(jià)跟著你一塊擺爛。

　　氣不氣？

　　別人氣不氣不知道。

　　反正兔子已經(jīng)氣得想咬人了。

　　更何況算法這種東西迭代本來(lái)就快！

　　領(lǐng)先一年半載時(shí)間幾乎等同于技術(shù)方面領(lǐng)先一代了。

　　生成/抽取復(fù)合式新聞?wù)惴ǜ穷I(lǐng)先14年這個(gè)時(shí)空主流新聞?wù)惴ㄒ淮搿?p>　　這可不是林灰夸張。

　　事實(shí)上，現(xiàn)在的新聞?wù)詣?dòng)生成的方式還是抽取式新聞?wù)?p>　　抽取式顧名思義就是按照一定的權(quán)重從新聞原文中尋找跟中心思想最接近的一條或幾條句子。

　　抽取式摘要還在用著“古老”的Text Rank排序算法。

　　這種算法大體思想是先去除文章中的一些停用詞。

　　之后對(duì)句子的相似度進(jìn)行度量，計(jì)算每一句相對(duì)另一句的相似度得分。

　　迭代傳播，直到誤差小于0.0001。

　　之后再對(duì)上述得到的關(guān)鍵語(yǔ)句進(jìn)行排序，以期能得到想要的摘要。

　　客觀來(lái)說(shuō)，這種算法雖然也還可以。

　　但問(wèn)題在于抽取式摘要主要考慮單詞詞頻，并沒有考慮過(guò)多的語(yǔ)義信息。

　　也正因?yàn)槿绱?，這種抽取式摘要很難獲取復(fù)雜新聞的核心內(nèi)容。

　　而且這種摘要方式的一個(gè)極其明顯的弊端在于：

　　抽取式摘要對(duì)英文新聞還算能湊合著用。

　　但對(duì)于中文新聞完全是無(wú)所適從的狀態(tài)。

　　總而言之，抽取式的摘要目前雖然已經(jīng)比較成熟。

　　但是抽取質(zhì)量及內(nèi)容流暢度方面都有點(diǎn)不夠看。

　　正因?yàn)槌槿∈秸姆N種不足。

　　之后又出現(xiàn)了生成式摘要算法。

　　生成式摘要算法得益于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)研究的深入。

　　這種摘要以一種更接近于人的方式生成摘要。

　　這就要求生成式模型有更強(qiáng)的表征、理解、生成文本的能力。

　　生成式則是計(jì)算機(jī)通讀原文后，在理解整篇文章意思的基礎(chǔ)上，按機(jī)器自己的話生成流暢的概括。

　　生成式新聞?wù)饕揽可疃壬窠?jīng)網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)。

　　生成式摘要在理解新聞內(nèi)容方面相比抽取式摘要有著先天優(yōu)勢(shì)。

　　但這種摘要也不是完全沒有弊端。

　　這種摘要方式很容易受到原文長(zhǎng)度的制約。

　　當(dāng)把一篇很長(zhǎng)新聞放在生成式摘要算法前。

　　其表現(xiàn)大概率為：(⊙﹏⊙)太長(zhǎng)不看！

　　而生成/抽取復(fù)合式新聞?wù)惴▌t綜合了抽取式摘要算法和生成式摘要算法的優(yōu)點(diǎn)。

　　對(duì)于較長(zhǎng)的新聞，利用該算法可以實(shí)現(xiàn)先抽取核心內(nèi)容。

　　再在核心內(nèi)容的基礎(chǔ)上進(jìn)行生成。

　　總而言之，如果依托生成/抽取復(fù)合式新聞?wù)惴ㄩ_發(fā)一款軟件的話

　　也完全能夠吊打尼克·達(dá)洛伊西奧開發(fā)的軟件。

　　畢竟尼克開發(fā)的軟件。

　　無(wú)論是Summly還是Yahoo News Digest（雅虎新聞?wù)?p>　　這些都是基于抽取式算法的。

　　生成/抽取復(fù)合式新聞?wù)惴ㄔ谛史矫婵梢哉f(shuō)是吊打抽取式摘要算法。

　　不過(guò)話說(shuō)回來(lái)這么弔的算法只開發(fā)一個(gè)軟件然后賣出去。

　　似乎有點(diǎn)虧。

　　怎么說(shuō)也是領(lǐng)先于時(shí)代的技術(shù)。

　　似乎可以水幾篇論文什么的。

　　呃，不過(guò)高中才畢業(yè)就發(fā)表論文的話似乎有點(diǎn)過(guò)于驚世駭俗了。

　　究竟怎么做才能物盡其用呢？

去APP,免費(fèi)暢讀 舉報(bào)

按 “鍵盤左鍵←” 返回上一章按 “鍵盤右鍵→” 進(jìn)入下一章按 “空格鍵” 向下滾動(dòng)

穿越：2014

第82章 領(lǐng)先一代半的算法

第82章領(lǐng)先一代半的算法