任务一采集文本文字

时间：2024-10-15 百科知识版权反馈

【摘要】：采集文本文字主要有以下几种方式：键盘输入、文字识别、语音识别以及网络下载等，本任务便逐一讲解这些方法。纯文本一般只有文本内容，没有应用字体、颜色等文本效果。需强调的是，文字的技术处理固然很重要，但是文字资料的准确性、完整性和权威性更为重要。因此，在编写文字脚本时，一定要文字准确，确保质量。步骤3　对识别取得的文本进行修改，并保存为最终文本文件。

任务一　采集文本文字

任务概述

采集文本文字主要有以下几种方式：键盘输入、文字识别、语音识别以及网络下载等，本任务便逐一讲解这些方法。

知识链接

数字媒体素材中的文字实际上有两种：一种是文本文字；另一种是非文本文字。用文本文件格式保存的文字素材便是文本文字，常见的文本文件格式有txt、rtf、doc及docx等。文本文件又分为纯文本文件和格式化文本文件两种类型。

纯文本一般只有文本内容，没有应用字体、颜色等文本效果。常见的纯文本由Windows自带的记事本创建，如图3-1-1所示。

格式化文本既包含文本内容信息，又包含文字效果信息，常见的格式化文本文件由Word创建，如图3-1-2所示。

图3-1-1

图3-1-2

文字一般具有以下几点特性：

● 字的格式(Style)：字体的格式有下列几种：普通、粗体、斜体、底线、轮廓和阴影等。

● 字的定位(Align)：字的定位主要有4种：左对齐、居中、右对齐和两端对齐。

● 字体(Font)的选择：由于Windows安装的字库不同，字体选项会有些差别，常用的有宋体、楷体、黑体、隶书、仿宋等。还可通过安装字库扩充更多的字体，如方正舒体、方正姚体、华文宋体、华文隶书等。

● 字的大小(Size)：字的大小一般是以字号和磅(Point)为单位，磅值越大，字越大。字体文件由TTF或FON等扩展名构成，TrueType字体(TTF文件)是Windows中的一项重要技术，支持无级放缩，美观，实用。常用的标志装饰也可以字体形式出现，Windows系统中的Webdings字体就不是单纯的字母样式。

● 字的颜色：可以向文字指定调色板中的任何一种颜色，以使画面更加漂亮。

需强调的是，文字的技术处理固然很重要，但是文字资料的准确性、完整性和权威性更为重要。因此，在编写文字脚本时，一定要文字准确，确保质量。

1. 使用设备录入文本文件

录入文字就是在具有文字功能的软件中，通过某种输入方式，将头脑中的思想或者纸张上的文稿输入计算机，生成数字化文字。

键盘录入：这是最常用的方式，如图3-1-3所示。

图3-1-3

手写录入：需要配置手写板和相应的软件，如图3-1-4所示。

图3-1-4

语音录入：需要配置麦克风和相应的软件。

在各种具有文字功能的软件中都可以进行文字录入，但是由于各种软件性质的不同，录入的目的和所得到的结果则不尽相同，如图3-1-5所示。

图3-1-5

2. 使用设备扫描识别文本文件

如果原始素材是印制品上的文稿，并且字体比较规范，可以通过扫描识别将其转变成数字化文字，从而免除了录入文字的操作。扫描文字的前提是，安装扫描仪及其驱动程序，并安装文字识别软件OCR（光学符号识别）。具体操作步骤如下：

步骤1　打开赛酷文档秘书，选择“文件→选择扫描仪”命令，在弹出的“选择来源”对话框中选择计算机上连接的扫描仪型号，如图3-1-6所示。

步骤2　选定扫描仪后会弹出扫描向导，将要扫描的书放到扫描中，可单击“预览”按钮观看效果，如图3-1-7所示。

图3-1-6

图3-1-7

步骤3　预览确认无误后，单击“扫描”按钮开始扫描，如图3-1-8所示。

图3-1-8

步骤4　扫描完成后可以对扫描图片进行调整，框选要识别的文字部分，软件会将识别结果显示到下面的框中，如图3-1-9所示。

图3-1-9

步骤5　识别完成后，选择“文件→导出结果”命令，在弹出的“另存为”对话框中输入文件名称，选择好文件的保存位置和保存格式，如图3-1-10所示。

图3-1-10

步骤6　单击“保存”按钮后，识别后的文本文件就已保存了，打开后的效果如图3-1-11所示。

图3-1-11

知识链接

扫描仪（Scanner）是一种计算机输入设备，它可将各种图片、图纸等资料扫描输入计算机中，转换成数字化图像数据保存和使用，如图3-1-12所示。配备专门的图像处理软件，计算机系统就可以进行图文档案管理、图文排版、电脑广告创意、光学符号识别（OCR）、工程图纸扫描录入、电脑传真和复印等。

图3-1-12

扫描仪内部基本组成部件是光源、光学透镜、感光元件，还有一个或多个的模拟—数字转换电路。从最基本的原理讲，扫描仪是把模拟数据转化为数字数据。感光元件一般是电荷耦合器（CCD）排列成横行，电荷耦合器里的每一个单元对应着一行里的一个像素。在扫描一副图像的时候，光源照射到图像反射回来，根据稿件不同地方亮暗程度的不同，形成强弱不等的反射光线，反射光线穿过透镜聚焦在镜头另一端的感光元件CCD上，CCD将光学信号转换为相应的电信号，这些信号最终通过A/D转换器转化为计算机所能识别的数字信号，然后经不同的接口，EPP，USB或SCSI输送到计算机。整个扫描过程涉及光学、机械、电子等不同方面，任何一个部件的设计都会影响到最终的数字化结果。不同级别的扫描仪的构造基本一样，但所使用的部件及技术却大不相同。

文本扫描识别一般有以下几个步骤：

步骤1　扫描文稿，取得文稿图像。

步骤2　通过文字识别软件，对以上取得的文稿图像进行文字识别，生成并自动保存为文本文件。

步骤3　对识别取得的文本进行修改，并保存为最终文本文件。根据文稿图像的清晰程度和识别软件的识别能力，识别取得的文本中通常会有不同程度的错误。对照原稿进行修改后，才能保存为最终文本文件。