统计单词频率是文本分析中的基础任务,可通过以下方法实现:
一、手动统计(适用于小规模文本)
逐字逐句阅读:
人工记录每个单词出现的次数,适合文本量较小的情况。
制作表格:
使用Excel等工具创建频数表,通过公式统计单词出现频率。
二、自动统计(推荐用于大规模文本)
编程实现 - Python:
利用`collections.Counter`或正则表达式处理文本。例如:
```python
from collections import Counter
import re
def count_words(text):
转换为小写并提取单词
words = re.findall(r'\b\w+\b', text.lower())
统计频率
word_count = Counter(words)
return dict(word_count)
示例
article_text = "Python是一种广泛使用的高级编程语言..."
word_freq = count_words(article_text)
print(word_freq)
```
- Bash脚本:通过管道操作处理文本,例如:
```bash
cat example.txt | tr '[upper]''[lower]' | tr -d '[punct]' | sort | uniq -c | sort -nr
```
该命令将文本转换为小写、删除标点、排序并统计频率。
使用专业工具 - 在线工具:
如Word Counter、Text Analyzer等,支持导入文本并生成频率表。
- 软件应用:如Excel(适用于小规模数据)、AntConc(专业语料库分析工具)等。
三、注意事项
文本预处理:需将文本转换为统一大小写(如小写),并去除标点符号,以避免统计误差。
分词处理:英文文本需进行分词(如使用正则表达式`\b\w+\b`),中文则需使用分词工具(如`jieba`)。
结果验证:对比手动统计结果与程序输出,确保准确性。
通过以上方法,可高效统计单词频率,并根据需求进一步分析文本特征。