PythonでEUC-JPのファイルを読み込んで正規表現を使う方法
PythonでEUC-JPのファイルを読み込んで正規表現を使う方法を紹介します。
Pythonは2.x系です。
1.問題点
下記の、文字コードがEUC-JPのファイルがあります。
text.txt
テスト1
テスト2
テスト3
このファイルから「テスト2」の部分だけをマッチさせたいので、下記のスクリプトを作ったのですがマッチしません。
#!/usr/bin/env python2
# -*- coding: utf-8 -*-
import sys
import codecs
import re
path = './test.txt'
f = codecs.open(path, 'r', 'euc_jp')
for line in f:
result = re.search('テスト2', line)
if result:
print line
ということで、PythonでEUC-JPのファイルを読み込んで正規表現を使う方法を紹介します。
2.EUC-JPのファイルを読み込んで正規表現を使う
EUC-JPのファイルを読み込んで正規表現を使うには、search()の第1パラメータにuフラグを与えます。
#!/usr/bin/env python2
# -*- coding: utf-8 -*-
import sys
import codecs
import re
path = './test.txt'
f = codecs.open(path, 'r', 'euc_jp')
for line in f:
result = re.search(u'テスト2', line)
if result:
print line
これでEUC-JPのファイルで正規表現が使えるようになります。
Posted by yujiro このページの先頭に戻る
- PythonでJSONファイルの日本語キーを読む方法
- Pythonで正規表現を使う方法
- Pythonで「SyntaxError: Non-ASCII character」というエラーの対処
- Pythonで文字列を取得する方法
- Pythonのシングルクォーテーションとダブルクォーテーションの違い
- Pythonで改行せずに出力する方法
- Pythonでshebang行を書く方法
- Pythonで改行を含む複数行データを代入する方法(ヒアドキュメント)
- Pythonで"Hello World"を出力する方法
トラックバックURL
コメントする
greeting