web-dev-qa-db-ja.com

'UTF-8'コーデックはバイト0xe2をデコードできません:無効な継続バイトエラー

正規表現を使用して数字を探すためにフォルダからすべてのPDFファイルを読み込もうとしています。検査では、PDFの文字セットは「UTF-8」です。

このエラーをスローします。

'UTF-8'コーデックは10の位置にバイト0xe2をデコードできません:無効な継続バイト

バイナリモードで読み込んだり、Latin-1エンコードを試みましたが、特殊文字はすべて検索に表示されていません。

_import os
import re
import pandas as pd
download_file_path = "C:\\Users\\...\\..\\"
for file_name in os.listdir(download_file_path):
    try:
        with open(download_file_path + file_name, 'r',encoding="UTF-8") as f:
          s = f.read()
          re_api = re.compile("API No\.\:\n(.*)")
          api = re_api.search(s).group(1).split('"')[0].strip()
          print(api)
    except Exception as e:
        print(e)
_

PDFファイルからAPI番号を見つけることを期待しています

6
Prat

問題はあなたのコンピュータ名が原因であるかもしれません、私はPython Djangoフレームワークでこのエラーを得ました

解決策は "あなたのコンピュータ名に特殊文字を含んではいけません"、手入れをチェックしてあなたのコンピュータ名を変更して変更してください... コンピュータ名の変更

0
Yuksel CELIK