1. <legend id="krddf"></legend>

      <form id="krddf"></form>
      <form id="krddf"></form>
      <legend id="krddf"><em id="krddf"><span id="krddf"></span></em></legend>

        1. <progress id="krddf"><i id="krddf"></i></progress>

        2. 暢享博客 > ljrj-數據人生 > NLPIR大數據挖掘為中文信息處理提供解決方案
          2019/5/5 12:01:38

          NLPIR大數據挖掘為中文信息處理提供解決方案

          隨著科學技術的發展,中文信息處理已經深入到了社會生活的各方面。廣泛的應用對中文信息處理技術也提出了較高的要求。

          中文信息處理是中文(包括漢語和少數民族語言)語言學和信息技術的融合,它是一門用計算機對漢語(包括口語和書面語)進行轉換、傳輸、存貯、分析等加工的科學。中文信息處理與語言學、計算機科學、心理學、數學、控制論、信息論、聲學、自動化技術等多種學科相聯系,是自然語言信息處理的一個分支,需要以大量的語言知識、背景知識為依據,對中文信息的人腦處理過程進行模擬。其中,“中文”是指中國通用的所有語言種類,包括漢語及其他少數民族的語言:但一般都是指漢語?!靶畔ⅰ笔侵改芡ㄟ^視覺、聽覺、嗅覺、味覺、觸覺等器官或儀器獲取,并有一定交際功能的東西,“信息”是不確定性的減少,是負熵。所謂“處理”,是指用計算機對信息進行各種加工,主要的是圖像信息和語言信息的識別、模擬、分析、轉換和傳輸。

          中文信息處理的特點

          (一)漢字的特殊性

          我們都知道,英語在計算機信息處理方面的優勢就是其字母數量有限, 因而可以很容易的進行輸入輸出以及信息的加工和處理,而中文的漢字則數量龐大,且字形相對復雜, 這就給漢字的編碼帶來了不小的困擾。 因此我們根據漢字信息處理過程中的不同要求對漢字進行了不同形式的編碼,總結來說有以下幾種方案,即漢字輸入編碼,漢字標準編碼, 漢字內碼和漢字形碼。

          (二)書面漢語的特殊性

          漢語的另一個特征是在書面表達中,詞語和記號之間沒有明顯的分隔標記, 這就使自動 分詞在書面漢語分析中成立一個難題。分詞需要將連續的字按照一定的規范進行有序的組合,比較英文 我們會發現,英文單詞之間都是用空格來做分隔符,而中文則是習慣通過字、整句以及段落進行簡單的劃分,而這其中的一個難點就是對詞語的劃分,我們都知道, 英語中也有短語劃分的問題,但是由于中文的詞語遠比英語的數量和范圍要龐大, 因而處理起來更為困難。

          )漢語語音的特殊性

          在語音方面,漢語的特征是音節結構相對簡單,音節劃分界限比較清晰, 但是聲調和變調是中文與英文的顯著區別,因而在語音識別和語音合成方面來講這是一個劣勢, 但是總體上來說漢語語音的處理比之其他方面來說還是相對容易的

          (三)漢語語法的特殊性

          在語法方面,漢語詞匯的句法功能相對來說難以判斷, 這與英語語言上的多變形態有著截然不同的表現。漢語主要依靠詞序和虛詞來表達不同的含義, 因此如果不能很好的掌握句法,就特別容易產生歧義,因此漢語語句自動分析這一重要技術是一項難以攻克的技術。

          北京理工大學大數據搜索與挖掘實驗室張華平主任研發的NLPIR大數據語義智能分析技術是滿足大數據挖掘對語法、詞法和語義的綜合應用。NLPIR大數據語義智能分析平臺是根據中文數據挖掘的綜合需求,融合了網絡精準采集、自然語言理解、文本挖掘和語義搜索的研究成果,并針對互聯網內容處理的全技術鏈條的共享開發平臺。

          NLPIR大數據語義智能分析平臺主要有精準采集、文檔轉化、新詞發現、批量分詞、語言統計、文本聚類、文本分類、摘要實體、智能過濾、情感分析、文檔去重、全文檢索、編碼轉換等十余項功能模塊,平臺提供了客戶端工具,云服務與二次開發接口等多種產品使用形式。各個中間件API可以無縫地融合到客戶的各類復雜應用系統之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系統平臺,可以供Java,Python,C,C#等各類開發語言使用。

          隨著信息技術在我國社會生活各個領域應用的深入,中文信息處理正在成為人們工作和生活中不可或缺的手段,中文信息處理將具有更加廣闊的市場。這將促使中文信息處理方面的高效中文搜索引擎、實時機器翻譯、大規模中文文本處理、跨平臺中西文自動識別轉換、泛中文語義理解、中文電子商務等技術實現重大突破。中文信息處理已成為我國信息技術研究、發展、應用和產業的基礎,在互聯網日益成長的今天,中文信息處理技術將會更加成熟并創新。