目錄
序 自然語言處理需要語言知識
第1章 緒論 1
1.1 研究簡介:漢英篇章結構平行語料庫 1
1.2 研究現狀 2
1.2.1 平行語料庫 2
1.2.2 篇章結構語料庫 3
1.2.3 篇章結構的語言對比 5
1.2.4 雙語篇章結構對齊技術 6
1.3 本書研究的理論和實際應用價值 6
1.4 本書結構安排 7
第2章 篇章結構的連接依存樹分析 9
2.1 篇章結構的連接依存樹表示 9
2.1.1 基本篇章單位 11
2.1.2 連接詞 13
2.1.3 篇章結構與連接詞 16
2.1.4 篇章關系與連接詞 17
2.1.5 基于連接詞的篇章關系體系 18
2.1.6 篇章關系中心與非中心 19
2.1.7 篇章關系角色與其分布常規(guī) 20
2.1.8 與相關理論的比較 20
2.1.9 優(yōu)劣分析 22
2.2 篇章結構連接依存樹的標注規(guī)范 23
2.2.1 基本篇章單位——漢語小句 23
2.2.2 連接詞 31
2.2.3 層次結構 42
2.2.4 篇章關系 47
2.2.5 關系角色常規(guī) 57
2.2.6 篇章關系中心 58
第3章 漢英篇章結構的對齊標注 62
3.1 漢英篇章結構平行語料庫的對齊標注策略 62
3.1.1 已有研究 63
3.1.2 漢英篇章結構對齊標注的思想與框架 64
3.1.3 切分對齊 67
3.1.4 層次結構對齊 69
3.1.5 關系對齊 71
3.1.6 中心對齊 72
3.1.7 角色分布對齊 73
3.1.8 結語 73
3.2 漢英篇章結構平行語料庫對齊標注的難點與對策 73
3.2.1 切分對齊的難點與對策 74
3.2.2 層次結構對齊的難點與對策 77
3.2.3 關系對齊的難點與對策 83
3.2.4 中心對齊的難點與對策 86
3.2.5 尚不能對齊的一些情況 88
3.2.6 結語 91
第4章 漢英篇章結構平行語料庫的工程實現 92
4.1 漢英篇章結構平行語料庫對齊標注平臺 92
4.1.1 標注平臺界面及功能分區(qū) 92
4.1.2 使用說明 93
4.1.3 操作規(guī)范 97
4.1.4 保存結果 97
4.2 漢語篇章結構平行語料庫的對齊標注評估 98
4.2.1 實驗設置 99
4.2.2 切分對齊標注評估 100
4.2.3 結構對齊標注評估 102
4.2.4 關系對齊標注評估 104
4.2.5 連接詞對齊標注評估 105
4.2.6 關系角色與中心的對齊標注評估 107
4.2.7 標注效率評估 108
4.2.8 評估平臺 109
4.2.9 結語 110
第5章 漢英篇章結構平行語料庫的數據統(tǒng)計 111
5.1 語料說明 111
5.2 篇章關系與連接詞 111
5.2.1 篇章關系的顯隱分布 111
5.2.2 篇章關系的類型分布 112
5.2.3 篇章關系顯隱與篇章關系類型 113
5.2.4 篇章關系顯隱與結構層級 116
5.2.5 顯式連接詞 117
5.2.6 同義連接詞 122
5.2.7 連接詞的語義分布 129
5.3 篇章關系角色 135
5.3.1 篇章關系角色的總體分布 135
5.3.2 篇章關系角色分布與篇章關系類型 135
5.4 篇章關系中心 137
5.4.1 篇章關系中心的位置分布 137
5.4.2 篇章關系中心位置與關系類型 137
5.4.3 關系中心位置與關系角色 142
第6章 漢語小句的英語對應單位 145
6.1 引言 145
6.2 漢英小句對齊語料庫 146
6.3 英語對應單位語法標注庫 148
6.3.1 英語對應單位的語法分析原則 148
6.3.2 英語對應單位的語法分析體系 149
6.4 英語對應單位的分類與統(tǒng)計分析 150
6.4.1 句子與分句 150
6.4.2 主句與從句 151
6.4.3 從句功能:狀語與定語 152
6.4.4 從句結構:限定與非限定 154
6.4.5 單一與并列 156
6.4.6 總體分析 157
6.5 說明及進一步工作 159
第7章 法律文本中表條件的“的”字結構的英譯 161
7.1 引言 161
7.1.1 法律文本中表條件的“的”字結構 161
7.1.2 法律文本中表條件的“的”字結構的英譯語料及分析 162
7.2 “的”字結構英語對應單位的確定 163
7.3 “的”字結構英譯分析與統(tǒng)計 164
7.3.1 功能:狀語與定語 164
7.3.2 結構:限定與非限定 166
7.3.3 功能與結構交叉分析 168
7.3.4 引導詞 170
7.4 從翻譯看“的”字結構的性質 174
7.5 結論及進一步工作 175
7.5.1 結論 175
7.5.2 進一步工作 176
第8章 內地、香港、澳門公文語篇的并列關系對比研究 178
8.1 引言 178
8.2 對比語料 179
8.3 并列關系的顯隱對比 180
8.4 并列連接詞對比 182
8.4.1 統(tǒng)計對比 182
8.4.2 個案對比 183
8.5 并列項對比 186
8.6 結論 188
第9章 漢英篇章結構對齊分析技術研究 189
9.1 引言 189
9.2 研究現狀 189
9.2.1 雙語對齊技術 189
9.2.2 篇章結構分析技術 192
9.3 分析任務 194
9.4 算法設計 195
9.4.1 漢英篇章結構對齊分析 195
9.4.2 連接詞、篇章關系、中心及角色的對齊分析 200
9.5 算法設計可行性及創(chuàng)新點 201
9.6 總結 201
參考文獻 202
附錄 CEDB標注平臺所使用的生語料預處理格式(1篇) 212
后記 215