----当计算机被用来处理汉字时,我们用到了输入法。但所有的输入法都是各有利弊。其实我们可以完全甩掉汉字这个包袱,只要用一种拉丁字母拼写的汉语文字来代替汉字就行了。这是我创制这套汉语拼音文字的初衷。在人工智能离我们越来越近的今天,我们需要的是一种智能的汉语拼音文字。
----智能汉语拼音文字是以拉丁字母为书写形式的汉语第二文字系统。它以现代汉语拼音方案为基础,为弥补现代汉语拼音方案在表意上的缺陷,增加表意的后缀;为适应信息时代的需要,便于电脑显示和键盘输入,用IUVO分别表示四声位,标在单词前面,作为前缀。
----实词采取拼音加前后缀的方式构词。一音词加前后缀,前缀在必要时可省略。二音词只加后缀。三音词及多音词不加前后缀。
----虚词采取特殊书写的方式。一般为虚词拼音去除元音字母再加上一定词缀。虚词数量有限,由虚词表规范词形。
----智能汉语拼音文字以词为单位书写。多音节表示一个整体概念的名称,按词(或语节)分开写,不能按词(或语节)划分的,全部连写。单音节词重叠,连写;双音节词重叠,分写。汉语人名按姓和名分写,姓和名的开头字母大写。笔名、别名等,按姓名写法处理。姓名和职务、称呼等分开写;职务、称呼等开头小写。"老"、"小"、"阿"等称呼开头大写。已经专名化的称呼,连写,开头大写。汉语地名按照中国地名委员会文件(84)中地字第17号《中国地名汉语拼音字母拼写规则(汉语地名部分)》的规定拼写。非汉语人名、地名本着"名从主人"的原则,按照罗马字母(拉丁字母)原文书写;非罗马字母文字的人名、地名,按照该文字的罗马字母转写法拼写。为了便于阅读,可以在原文后面注上汉字或汉字的拼音,在一定的场合也可以先用或仅用汉字的拼音。一般情况,虚词与其他词语分写。四言成语可以分为两个双音节来念的,中间加短横。专有名词大写。移行要按音节分开,在没有写完的地方加上短横。
----智能汉语拼音文字系统采取从大到小的处理步骤:先确定语言环境,再确定文章的中心词,然后确定句和句的语法关系以及每个句子内部的语法结构。这样语意就被基本确定了下来。
在微观的处理上,每个词基本由拼音加上前缀和后缀构成。前缀表示声调(必要时可以省略),后缀表示词性和词的类属(如,m表示树木类)。这样计算机不用进入词库就可以确定一个词的词性并部分地确定这个词的词义。
----许多时候我们常常忽视了短语的存在。我这里将短语进行了专门处理。首先为短语建立专门的数据库,为短语规定了特殊的书写方式。这样做的好处是能更精确的确定每个词的词义。