文本分析包括什麽內容？有了解的可以說壹下嗎？

壹、什麽是文本分析？

作為壹種新興的基於定性研究的量化分析方法，文本分析法能夠揭示文本的變化與特征，為經典問題的研究提供了新思路。

文本分析應用於多個領域，比如在旅遊業中，可以通過文本分析去研究旅遊形象感知情況，比如在經濟學中，可以通過文本分析進行研究目前保險政策等等，以及還有其它領域都會應用到文本分析。

二、文本分析常見研究步驟

文本分析的常見步驟有五步，包括數據搜集、分詞、數據清洗、特征提取以及建模和其它分析具體如下圖：

數據搜集

文本分析的第壹步需要進行數據搜集，獲取文本數據的方式壹般包括網絡平臺、媒體平臺、新聞、知網、論壇等等。

分詞

計算機會將我們導入的字符串進行分詞劃分便於後續的分析。

數據清洗

在文本分析的過程中，首先需要對文本進行預處理，預處理是非常重要的壹步，它直接影響後續分析的準確性和可靠性。標點符號和停用詞的去除是預處理的常見操作，可以有效地去除文本中的無關信息，提高分析效率。同時，對文本進行分詞、去除停用詞等操作，也有助於提取出更準確的關鍵詞和主題。除此之外還會通過關鍵詞詞頻，分布等等進行剖析文本的主題，以及有些研究者還會通過分析情感詞去了解文本的情感傾向。

特征提取

數據清洗後進行特征提取，比如可以使用可視化板塊裏的tf-idf，其是常用的特征提取方法，它考慮了詞匯在文本中的重要性和在語料庫中的普遍性。TF-IDF值越高，表示該詞匯在文本中的重要性越高，以及還有其它方法。

後續分析

利用文本數據進行後續分析，比如可視化圖形展示、主題分析，聚類等等，下個模塊會有說明。

三、SPSSAU如何操作？

文本分析的操作演示：通過SPSSAU主系統左側儀表盤點擊‘文本分析模塊’進入。

進入文本分析模塊後，研究者可以自行選擇上傳數據，包括粘貼文本進行上傳或者上傳txt/excel文件等（大小限制5m內）。如下圖所示：

然後就可以根據自己的需求進行選擇分析方法，進行分析：

四、文本分析都能幹什麽？

文本分析的應用有很多，以SPSSAU為例，其可以進行文本可視化（詞雲分析）、文本情感分析、文本聚類分析、社會網絡關系圖、LDA主題分析語義分析等等。

文本可視化

文本分析模塊中，最重要和最基礎的為展示分詞結果，通常是使用詞雲進行展示。在‘詞雲分析等’中，SPSSAU提供四種功能，分別是詞雲分析、自定義詞雲、詞定位和tf-idf。

詞雲分析

詞雲圖直觀展示住建很2023年12月***41條新聞內容的關鍵詞信息，住戶、城市、發展、建設等均是關鍵信息。默認是展示前100個高頻關鍵詞，可自主設置該數字。也可修改詞雲風格和下載該詞雲圖。

自定義詞雲

如果對詞雲分析不滿意，也可以使用自定義詞雲，研究者可將整理好的信息，包括關鍵詞和其詞頻，直接粘貼（或者自主編輯）在表格中，然後就會出現相應的詞雲圖。

詞定位

通過詞定位可以觀察到某個詞，具體出現在那些行中，可通過行號進行查看。

tf-idf

文本分析中，tf-idf是個重要的指標，其反映某關鍵詞在整份數據中的重要性程度，當tf-idf越高時，其重要性越高。其與詞頻的意義不盡相同，詞頻是指出現次數，而tf-idf更加關註於關鍵詞的重要性程度。其中：tf-idf = tf * idf；其中tf：tf = n / N，其中n為某關鍵詞的詞頻，N為整份數據關鍵詞詞頻總和，N是個固定值，當n即詞頻越高時tf越高，說明該關鍵詞越重要；idf = log(D/(1+d))，log是取對數，D為數據的行數，d為數據中某個詞在多少行中出現過。D為固定值，d值越大即到處出現時idf反而越小，d值越小即並非到處出現時idf反而越高，idf越高代表某關鍵詞重要性越高。

文本情感分析

目前,主流的文本情感分析方法可分為基於情感詞典、機器學習和深度學習三類。基於情感詞典的方法是傳統的情感分析方法,它利用情感詞典中的情感極性計算目標語句的情感值。盡管基於詞典的分析方法實現簡單,但其也有缺點，其準確率在很大程度上依賴於構建詞典的質量，並且構建情感詞典需要耗費大量人力物力,對新詞的適應能力也較差。

文本分析模塊中，SPSSAU***提供兩種方式的情感分析，分別是按詞情感分析和按行情感分析。按詞情感分析是指針對提取的關鍵詞進行情感分析，並且進行可視化展示；按行情感分析是指針對分析的原始數據以‘行’為單位進行情感分析，並且可下載具體的情感得分值信息等。

文本聚類

文本聚類即：將需要分析的關鍵詞進行聚類分析，並且進行可視化展示，SPSSAU***提供兩種文本聚類方式，分別是按詞聚類和按行聚類。

社會網絡關系圖

社會網絡關系圖展示關鍵詞之間的關系情況，此處的關系是指‘***詞矩陣’，即兩個關鍵詞同時出現的頻數情況，將‘***詞矩陣’信息使用可視化方式進行呈現出來。

***詞矩陣：主要用於表示關鍵詞之間的關聯強度。它是壹個由行和列組成的矩陣，通過矩陣中的元素來表示關鍵詞之間的關聯程度。在***詞矩陣中，元素的值越大，說明兩個關鍵詞之間的關聯性越強，即它們***同出現的頻率越高。

社會網絡關系圖：社會網絡關系圖在文本分析中的應用主要是為了揭示文本中各個實體之間的關聯關系。這種關系圖可以幫助我們更好地理解文本的主題和內容，發現文本中的隱藏信息和模式。

LDA主題分析

主題模型是指用來統計壹系列文檔中出現的主題個數的壹種統計模型，LDA可以通過無監督的學習方法發現文本中隱含的主題信息。LDA將主題當成是文檔內容的濃縮，所以我們可以通過LDA將大規模的語料庫中的信息生成文檔，生成的文檔可以看作是由許多主題構成的,構成主題的每壹個詞匯又都是無序的,從而達到降低文檔維數的效果,大大降低了問題的復雜性,同時也具有語義上的特征。SPSSAU結果如下（氣泡大小表示該主題的重要性情況，以及條形的長度表示該主題時該詞的權重大小情況）：

新詞發現

無法被詞典識別到的，新詞發現時涉及到兩個關鍵指標，分別是：信息熵和互信息。信息熵越大即意味著某詞越容易與其它詞組合在壹起形成壹個詞語，信息熵越小即意味著某詞越不容易與其它詞組合在壹起。

停用詞/情感詞

停用詞：停用詞是指在文本中出現頻率較高但對文本主題和內容貢獻較小的詞，停用詞的去除可以提高分析效率和精度；

情感詞：情感詞是指表達情感或情感傾向的詞，情感詞的識別和分析可以幫助我們更好地理解文本的情感內涵；