首頁 都市

穿越:2014

第82章 領(lǐng)先一代半的算法

穿越:2014 豬熊 1434 2022-01-25 19:41:40

  而此時處在輿論漩渦之中的林灰在干什么呢?

  當然是在廢寢忘食地查閱那些跨越時空的“參考資料”。

  這里面有價值的信息太多了。

  很多在后世平平無奇的東西放到眼下這個時空中都是亂殺的存在。

  但林灰沒有被激動的情緒所左右。

  因為林灰始終清楚領(lǐng)先半步是先驅(qū),領(lǐng)先一步是先烈。

  技術(shù)真領(lǐng)先個一年半載還好說,冷不丁一下子領(lǐng)先別人四五年就出大問題了。

  只有能夠契合14年這個時代背景的技術(shù)才是林灰尋找的有價值的東西。

  在前世那部ThinkPad里幾乎沒翻找多長時間。

  林灰就找到了他的獵物:

  ——生成/抽取復(fù)合式新聞?wù)惴ā?p>  這種算法在前世并不算特別新鮮的玩意。

  林灰之所以看中它是因為這個算法成熟。

  某種程度上成熟就意味著穩(wěn)定、性能可靠。

  林灰?guī)缀醪恍枰俳?jīng)過額外的調(diào)教就直接拿這種算法開發(fā)之前他構(gòu)想的那個新聞?wù)浖?p>  當然了,這個算法也只是在前世那個時空不算新鮮而已。

  放到14這個時空里,依舊是領(lǐng)先的技術(shù)。

  只領(lǐng)先一點點,有用嗎?

  不要說領(lǐng)先一點了,就是領(lǐng)先半點。

  也照樣讓你絕望!

  你沒打破我壟斷之前,我各種高價訛詐賺取巨額利潤。

  你打破我壟斷了,我直接白菜價跟著你一塊擺爛。

  氣不氣?

  別人氣不氣不知道。

  反正兔子已經(jīng)氣得想咬人了。

  更何況算法這種東西迭代本來就快!

  領(lǐng)先一年半載時間幾乎等同于技術(shù)方面領(lǐng)先一代了。

  生成/抽取復(fù)合式新聞?wù)惴ǜ穷I(lǐng)先14年這個時空主流新聞?wù)惴ㄒ淮搿?p>  這可不是林灰夸張。

  事實上,現(xiàn)在的新聞?wù)詣由傻姆绞竭€是抽取式新聞?wù)?p>  抽取式顧名思義就是按照一定的權(quán)重從新聞原文中尋找跟中心思想最接近的一條或幾條句子。

  抽取式摘要還在用著“古老”的Text Rank排序算法。

  這種算法大體思想是先去除文章中的一些停用詞。

  之后對句子的相似度進行度量,計算每一句相對另一句的相似度得分。

  迭代傳播,直到誤差小于0.0001。

  之后再對上述得到的關(guān)鍵語句進行排序,以期能得到想要的摘要。

  客觀來說,這種算法雖然也還可以。

  但問題在于抽取式摘要主要考慮單詞詞頻,并沒有考慮過多的語義信息。

  也正因為如此,這種抽取式摘要很難獲取復(fù)雜新聞的核心內(nèi)容。

  而且這種摘要方式的一個極其明顯的弊端在于:

  抽取式摘要對英文新聞還算能湊合著用。

  但對于中文新聞完全是無所適從的狀態(tài)。

  總而言之,抽取式的摘要目前雖然已經(jīng)比較成熟。

  但是抽取質(zhì)量及內(nèi)容流暢度方面都有點不夠看。

  正因為抽取式摘要的種種不足。

  之后又出現(xiàn)了生成式摘要算法。

  生成式摘要算法得益于神經(jīng)網(wǎng)絡(luò)學(xué)習研究的深入。

  這種摘要以一種更接近于人的方式生成摘要。

  這就要求生成式模型有更強的表征、理解、生成文本的能力。

  生成式則是計算機通讀原文后,在理解整篇文章意思的基礎(chǔ)上,按機器自己的話生成流暢的概括。

  生成式新聞?wù)饕揽可疃壬窠?jīng)網(wǎng)絡(luò)結(jié)構(gòu)實現(xiàn)。

  生成式摘要在理解新聞內(nèi)容方面相比抽取式摘要有著先天優(yōu)勢。

  但這種摘要也不是完全沒有弊端。

  這種摘要方式很容易受到原文長度的制約。

  當把一篇很長新聞放在生成式摘要算法前。

  其表現(xiàn)大概率為:(⊙﹏⊙)太長不看!

  而生成/抽取復(fù)合式新聞?wù)惴▌t綜合了抽取式摘要算法和生成式摘要算法的優(yōu)點。

  對于較長的新聞,利用該算法可以實現(xiàn)先抽取核心內(nèi)容。

  再在核心內(nèi)容的基礎(chǔ)上進行生成。

  總而言之,如果依托生成/抽取復(fù)合式新聞?wù)惴ㄩ_發(fā)一款軟件的話

  也完全能夠吊打尼克·達洛伊西奧開發(fā)的軟件。

  畢竟尼克開發(fā)的軟件。

  無論是Summly還是Yahoo News Digest(雅虎新聞?wù)?p>  這些都是基于抽取式算法的。

  生成/抽取復(fù)合式新聞?wù)惴ㄔ谛史矫婵梢哉f是吊打抽取式摘要算法。

  不過話說回來這么弔的算法只開發(fā)一個軟件然后賣出去。

  似乎有點虧。

  怎么說也是領(lǐng)先于時代的技術(shù)。

  似乎可以水幾篇論文什么的。

  呃,不過高中才畢業(yè)就發(fā)表論文的話似乎有點過于驚世駭俗了。

  究竟怎么做才能物盡其用呢?

按 “鍵盤左鍵←” 返回上一章  按 “鍵盤右鍵→” 進入下一章  按 “空格鍵” 向下滾動