Python中Pandas怎么讀取文件和讀取CSV參數(shù)

本篇內(nèi)容主要講解“Python中Pandas怎么讀取文件和讀取CSV參數(shù)”，感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷，實用性強。下面就讓小編來帶大家學習“Python中Pandas怎么讀取文件和讀取CSV參數(shù)”吧!

網(wǎng)站建設、成都做網(wǎng)站,成都做網(wǎng)站公司-創(chuàng)新互聯(lián)已向成百上千家企業(yè)提供了,網(wǎng)站設計,網(wǎng)站制作,網(wǎng)絡營銷等服務!設計與技術結合,多年網(wǎng)站推廣經(jīng)驗,合理的價格為您打造企業(yè)品質網(wǎng)站。

一、Pandas 讀取文件

當使用 Pandas 做數(shù)據(jù)分析的時，需要讀取事先準備好的數(shù)據(jù)集，這是做數(shù)據(jù)分析的第一步。Panda 提供了多種讀取數(shù)據(jù)的方法，針對不同的文件格式，有以下幾種：
（1） read_csv() 用于讀取文本文件。
（2） read_excel() 用于讀取文本文件。
（3） read_json() 用于讀取 json 文件。
（4） read_sql_query() 讀取 sql 語句的。
其通用的流程如下：
（1）導入庫 import pandas as pd。
（2）找到文件所在位置（絕對路徑 = 全稱）（相對路徑 = 和程序在同一個文件夾中的路徑的簡稱）。
（3）變量名 = pd.讀寫操作方法（文件路徑，具體的篩選條件，……）。

二、CSV 文件讀取

CSV 又稱逗號分隔值文件，是一種簡單的文件格式，以特定的結構來排列表格數(shù)據(jù)。 CSV 文件能夠以純文本形式存儲表格數(shù)據(jù)，比如電子表格、數(shù)據(jù)庫文件，并具有數(shù)據(jù)交換的通用格式。CSV 文件會在 Excel 文件中被打開，其行和列都定義了標準的數(shù)據(jù)格式。
將 CSV 中的數(shù)據(jù)轉換為 DataFrame 對象是非常便捷的。和一般文件讀寫不一樣，它不需要你做打開文件、讀取文件、關閉文件等操作。相反，您只需要一行代碼就可以完成上述所有步驟，并將數(shù)據(jù)存儲在 DataFrame 中。
下面進行實例演示，源數(shù)據(jù)如下：

Python中Pandas怎么讀取文件和讀取CSV參數(shù)

首先，我們對 CSV 文件進行讀取，可以通過相對路徑，也可以通過 os 動態(tài)取得絕對路徑 os.getcwd() os.path.json。

import pandas as pd
df = pd.read_csv("./data/my_csv.csv")
print(df,type(df))
#   col1 col2  col3    col4      col5
#0     2    a   1.4   apple  2022/1/1
#1     3    b   3.4  banana  2022/1/2
#2     6    c   2.5  orange  2022/1/5
#3     5    d   3.2   grape  2022/1/7

我們可以通過 os.getcwd() 讀取文件的存儲路徑。

import os
os.getcwd()
#'C:\\Users\\CQB\\Desktop\\內(nèi)蒙農(nóng)業(yè)大學數(shù)據(jù)分析教案和代碼\\第16天'

其語法模板如下：

read_csv(filepath_or_buffer, sep=',',  header='infer', names=None, index_col=None, usecols=None, squeeze=None, prefix=None, 
mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, 
skiprows=None, skipfooter=0, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, 
skip_blank_lines=True, parse_dates=None, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False,
cache_dates=True, iterator=False, chunksize=None, compression='infer', thousands=None, decimal='.', lineterminator=None, 
quotechar='"', quoting=0, doublequote=True, escapechar=None, comment=None, encoding=None, encoding_errors='strict', dialect=None, 
error_bad_lines=None, warn_bad_lines=None, on_bad_lines=None, delim_whitespace=False, low_memory=True, memory_map=False, 
float_precision=None, storage_options=None)

1. 基本參數(shù)

（1） filepath_or_buffer（數(shù)據(jù)輸入的路徑）：可以是文件路徑、可以是 URL，也可以是實現(xiàn) read 方法的任意對象。這個參數(shù)，就是我們輸入的第一個參數(shù)。
我們可以直接 read_csv 讀取我們想要的文件。

import pandas as pd
pd.read_csv(r"data\students.csv")
#id	name	address	gender	birthday
#0	1	朱夢雪	地球村	女	2004/11/2
#1	2	許文博	月亮星	女	2003/8/7
#2	3	張兆媛	艾爾星	女	2004/11/2
#3	4	付延旭	克哈星	男	2003/10/11
#4	5	王杰	查爾星	男	2002/6/12
#5	6	董澤宇	塔桑尼斯	男	2002/2/12

還可以是一個 URL，如果訪問該 URL 會返回一個文件的話，那么 pandas 的 read_csv函數(shù)會自動將該文件進行讀取。比如：我們
里面還可以是一個 _io.TextIOWrapper，其中，pandas 默認使用 utf-8 讀取文件，比如：
```
f = open(r"data\students.csv", encoding="utf-8")
pd.read_csv(f)
#id	name	address	gender	birthday
#0	1	朱夢雪	地球村	女	2004/11/2
#1	2	許文博	月亮星	女	2003/8/7
#2	3	張兆媛	艾爾星	女	2004/11/2
#3	4	付延旭	克哈星	男	2003/10/11
#4	5	王杰	查爾星	男	2002/6/12
#5	6	董澤宇	塔桑尼斯	男	2002/2/12
```
（2） sep：讀取 csv 文件時指定的分隔符，默認為逗號。注意：csv 文件的分隔符和我們讀取 csv 文件時指定的分隔符一定要一致。
```
import pandas as pd
pd.read_csv(r"data\students_step.csv")
#id|name|address|gender|birthday
#0	1|朱夢雪|地球村|女|2004/11/2
#1	2|許文博|月亮星|女|2003/8/7
#2	3|張兆媛|艾爾星|女|2004/11/2
#3	4|付延旭|克哈星|男|2003/10/11
#4	5|王杰|查爾星|男|2002/6/12
#5	6|董澤宇|塔桑尼斯|男|2002/2/12
```
由于指定的分隔符和 csv 文件采用的分隔符不一致，因此多個列之間沒有分開，而是連在一起了。所以，我們需要將分隔符設置成 \t 才可以。
```
df = pd.read_csv(r"data\students_step.csv", sep="|")
df
#id	name	address	gender	birthday
#0	1	朱夢雪	地球村	女	2004/11/2
#1	2	許文博	月亮星	女	2003/8/7
#2	3	張兆媛	艾爾星	女	2004/11/2
#3	4	付延旭	克哈星	男	2003/10/11
#4	5	王杰	查爾星	男	2002/6/12
#5	6	董澤宇	塔桑尼斯	男	2002/2/12
```
（3） delim_whitespace：默認為 False，設置為 True 時，表示分割符為空白字符，可以是空格、\t 等等。不管分隔符是什么，只要是空白字符，那么可以通過 delim_whitespace=True 進行讀取。如下，我們對 delim_whitespace 不設置，也就是默認為 False，會發(fā)現(xiàn)讀取有點問題。
```
df = pd.read_csv(r"data\students_whitespace.txt", sep=" ")
df
#id	name	address	gender	birthday
#0	1	朱夢雪	地球村	女	2004/11/2
#1	2	許文博\t月亮星	女	2003/8/7	NaN
#2	3	張兆媛	艾爾星	女	2004/11/2
#3	4	付延旭	克哈星	男	2003/10/11
#4	5	王杰\t查爾星	男	2002/6/12	NaN
#5	6	董澤宇\t塔桑尼斯	男	2002/2/12	NaN
```
對此，我們將 delim_whitespace 設置為 True，便會得到我們想要的讀取結果。
```
df = pd.read_csv(r"data\students_whitespace.txt", delim_whitespace=True)
df
#id	name	address	gender	birthday
#0	1	朱夢雪	地球村	女	2004/11/2
#1	2	許文博	月亮星	女	2003/8/7
#2	3	張兆媛	艾爾星	女	2004/11/2
#3	4	付延旭	克哈星	男	2003/10/11
#4	5	王杰	查爾星	男	2002/6/12
#5	6	董澤宇	塔桑尼斯	男	2002/2/12
```
```
pd.read_csv(r"data\students.csv")
#id	name	address	gender	birthday
#0	1	朱夢雪	地球村	女	2004/11/2
#1	2	許文博	月亮星	女	2003/8/7
#2	3	張兆媛	艾爾星	女	2004/11/2
#3	4	付延旭	克哈星	男	2003/10/11
#4	5	王杰	查爾星	男	2002/6/12
#5	6	董澤宇	塔桑尼斯	男	2002/2/12
```
- （b） names 沒有被賦值，header 被賦值：
- 如果不指定 names，指定 header 為 1，則選取第二行當做表頭，第二行下面為數(shù)據(jù)。
```
pd.read_csv(r"data\students.csv", header=1)
#1	朱夢雪	地球村	女	2004/11/2
#0	2	許文博	月亮星	女	2003/8/7
#1	3	張兆媛	艾爾星	女	2004/11/2
#2	4	付延旭	克哈星	男	2003/10/11
#3	5	王杰	查爾星	男	2002/6/12
#4	6	董澤宇	塔桑尼斯	男	2002/2/12
```
（c） names 被賦值，header 沒有被賦值：
```
pd.read_csv(r"data\students.csv", names=["編號", "姓名", "地址", "性別", "出生日期"])
#編號	姓名	地址	性別	出生日期
#0	id	name	address	gender	birthday
#1	1	朱夢雪	地球村	女	2004/11/2
#2	2	許文博	月亮星	女	2003/8/7
#3	3	張兆媛	艾爾星	女	2004/11/2
#4	4	付延旭	克哈星	男	2003/10/11
#5	5	王杰	查爾星	男	2002/6/12
#6	6	董澤宇	塔桑尼斯	男	2002/2/12
```
```
pd.read_csv(r"data\students.csv",
            names=["編號", "姓名", "地址", "性別", "出生日期"],
            header=1)
#編號	姓名	地址	性別	出生日期
#0	2	許文博	月亮星	女	2003/8/7
#1	3	張兆媛	艾爾星	女	2004/11/2
#2	4	付延旭	克哈星	男	2003/10/11
#3	5	王杰	查爾星	男	2002/6/12
#4	6	董澤宇	塔桑尼斯	男	2002/2/12
```
```
df = pd.read_csv(r"data\students.csv", index_col="birthday")
df
#           id	 name  address gender
#birthday				
#2004/11/2	1	朱夢雪	地球村	女
#2003/8/7	2	許文博	月亮星	女
#2004/11/2	3	張兆媛	艾爾星	女
#2003/10/11	4	付延旭	克哈星	男
#2002/6/12	5	王杰	查爾星	男
#2002/2/12	6	董澤宇	塔桑尼斯 男
```
也可以用來刪除指定列。
```
df.index=df['birthday']
del df['birthday']
df
#          id	name	address	gender
#birthday				
#2004/11/2	1	朱夢雪	地球村	女
#2003/8/7	2	許文博	月亮星	女
#2004/11/2	3	張兆媛	艾爾星	女
#2003/10/11	4	付延旭	克哈星	男
#2002/6/12	5	王杰	查爾星	男
#2002/2/12	6	董澤宇	塔桑尼斯	男
```
我們在讀取的時候指定了 name 列作為索引；此外，除了指定單個列，還可以指定多列作為索引，比如 [“id”, “name”]。同時，我們除了可以輸入列名外，還可以輸入列對應的索引。比如：“id”、“name”、“address”、"date"對應的索引就分別是 0、1、2、3。
```
df2 = pd.read_csv(r"data\students.csv", index_col=["gender","birthday"])
df2
#             id	name	address
#gender	birthday			
#女	2004/11/2	1	朱夢雪	地球村
#   2003/8/7	2	許文博	月亮星
#   2004/11/2	3	張兆媛	艾爾星
#男	2003/10/11	4	付延旭	克哈星
#   2002/6/12	5	王杰	查爾星
#   2002/2/12	6	董澤宇	塔桑尼斯
```
使用 loc 刪選也是同樣的道理。
```
df2.loc["女"]
#         id	name	address
#birthday			
#2004/11/2	1	朱夢雪	地球村
#2003/8/7	2	許文博	月亮星
#2004/11/2	3	張兆媛	艾爾星
```
- （7） usecols：返回列的子集。
- 如果是類似列表的，則所有元素都必須是位置性的（即文檔列中的整數(shù)索引），或者是與用戶在名稱中提供的列名或從文檔標題行推斷的列名相對應的字符串。如果給出了名稱，則不考慮文檔標題行。
```
pd.read_csv(r"data\students.csv", usecols=["name","birthday"])
#   name
#0	朱夢雪
#1	許文博
#2	張兆媛
#3	付延旭
#4	王杰
#5	董澤宇
```
2. 通用解析參數(shù)
（1） encoding：表示這只編碼格式，utf-8，gbk。
```
pd.read_csv(r"data\students_gbk.csv") # UnicodeDecodeError
```
- 如果提示錯誤喂 UnicodeDecodeError —> 需要想到編碼問題。
- pandas 默認使用 utf-8 格式讀取。
```
pd.read_csv(r"data\students_gbk.csv", encoding="gbk") 
#id	name	address	gender	birthday
#0	1	朱夢雪	地球村	女	2004/11/2
#1	2	許文博	月亮星	女	2003/8/7
#2	3	張兆媛	艾爾星	女	2004/11/2
#3	4	付延旭	克哈星	男	2003/10/11
#4	5	王杰	查爾星	男	2002/6/12
#5	6	董澤宇	塔桑尼斯	男	2002/2/12
```
- （2） dtype：在讀取數(shù)據(jù)的時候，設定字段的類型。
- 比如，公司員工的 id 一般是：00001234，如果默認讀取的時候，會顯示為 1234，所以這個時候要把他轉為字符串類型，才能正常顯示為 00001234。
```
df = pd.read_csv(r"data\students_step_001.csv", sep="|")
df
#id	name	address	gender	birthday
#0	1	朱夢雪	地球村	女	2004/11/2
#1	2	許文博	月亮星	女	2003/8/7
#2	3	張兆媛	艾爾星	女	2004/11/2
#3	4	付延旭	克哈星	男	2003/10/11
#4	5	王杰	查爾星	男	2002/6/12
#5	6	董澤宇	塔桑尼斯	男	2002/2/12
```
我們將 id 的數(shù)據(jù)類型設置為字符串，便可以顯示為 001 之類的。
```
df = pd.read_csv(r"data\students_step_001.csv", sep="|", dtype ={"id":str}) 
df
#id	name	address	gender	birthday
#0	001	朱夢雪	地球村	女	2004/11/2
#1	002	許文博	月亮星	女	2003/8/7
#2	003	張兆媛	艾爾星	女	2004/11/2
#3	004	付延旭	克哈星	男	2003/10/11
#4	005	王杰	查爾星	男	2002/6/12
#5	006	董澤宇	塔桑尼斯	男	2002/2/12
```
- （3） converters：在讀取數(shù)據(jù)的時候對列數(shù)據(jù)進行變換.
- 例如將 id 增加 10，但是注意 int(x)，在使用 converters 參數(shù)時，解析器默認所有列的類型為 str，所以需要進行類型轉換。
```
pd.read_csv('data\students.csv', converters={"id": lambda x: int(x) + 10})
#id	name	address	gender	birthday
#0	11	朱夢雪	地球村	女	2004/11/2
#1	12	許文博	月亮星	女	2003/8/7
#2	13	張兆媛	艾爾星	女	2004/11/2
#3	14	付延旭	克哈星	男	2003/10/11
#4	15	王杰	查爾星	男	2002/6/12
#5	16	董澤宇	塔桑尼斯	男	2002/2/12
```
- （4） true_values 和 false_values：指定哪些值應該被清洗為 True，哪些值被清洗為 False。
- 我們以性別為例，男設置為 True，女設置為 False。
```
pd.read_csv('data\students.csv', true_values=['男'], false_values=['女'])
#   id	name	address	gender	birthday
#0	1	朱夢雪	地球村	False	2004/11/2
#1	2	許文博	月亮星	False	2003/8/7
#2	3	張兆媛	艾爾星	False	2004/11/2
#3	4	付延旭	克哈星	True	2003/10/11
#4	5	王杰	查爾星	True	2002/6/12
#5	6	董澤宇	塔桑尼斯	True	2002/2/12
```
- 這里的替換規(guī)則為，只有當某一列的數(shù)據(jù)類別全部出現(xiàn)在 true_values + false_values 里面，才會被替換。
- （5） skiprows：表示過濾行，想過濾掉哪些行，就寫在一個列表里面?zhèn)鬟f給 skiprows 即可。注意的是，這里是先過濾，然后再確定表頭，比如：
```
pd.read_csv('data\students.csv', skiprows=[0,3])
#   1	朱夢雪	地球村	女	2004/11/2
#0	2	許文博	月亮星	女	2003/8/7
#1	4	付延旭	克哈星	男	2003/10/11
#2	5	王杰	查爾星	男	2002/6/12
#3	6	董澤宇	塔桑尼斯	男	2002/2/12
```
這里把第一行過濾掉了，因為第一行是表頭，所以在過濾掉之后第二行就變成表頭了。當然里面除了傳入具體的數(shù)值，來表明要過濾掉哪些行，還可以傳入一個函數(shù)。
```
pd.read_csv('data\students.csv', skiprows=lambda x: x > 0 and x % 2 == 0)
#  id	name	address	gender	birthday
#0	1	朱夢雪	地球村	女	2004/11/2
#1	3	張兆媛	艾爾星	女	2004/11/2
#2	5	王杰	查爾星	男	2002/6/12
```
- 由于索引從 0 開始，所以凡是索引大于 0、并且%2 等于 0 的記錄都過濾掉。索引大于 0，是為了保證表頭不被過濾掉。
- （6） skipfooter：表示從文件末尾過濾行。
```
pd.read_csv('data\students.csv', skipfooter=1)
```
上述代碼運行后會出現(xiàn)報錯，并且表格中的數(shù)據(jù)都變成亂碼，具體原因下方有解釋。
```
pd.read_csv('data\students.csv', skipfooter=1, engine="python", encoding="utf-8")
#  id	name	address	gender	birthday
#0	1	朱夢雪	地球村	女	2004/11/2
#1	2	許文博	月亮星	女	2003/8/7
#2	3	張兆媛	艾爾星	女	2004/11/2
#3	4	付延旭	克哈星	男	2003/10/11
#4	5	王杰	查爾星	男	2002/6/12
```
```
pd.read_csv('data\students.csv', nrows=3)
#  id	name	address	gender	birthday
#0	1	朱夢雪	地球村	女	2004/11/2
#1	2	許文博	月亮星	女	2003/8/7
#2	3	張兆媛	艾爾星	女	2004/11/2
```
3. 空值處理相關參數(shù)
na_values：該參數(shù)可以配置哪些值需要處理成 NaN。
```
pd.read_csv('data\students.csv', na_values=["女", "朱夢雪"])
  #id	name	address	gender	birthday
#0	1	NaN	地球村	NaN	2004/11/2
#1	2	許文博	月亮星	NaN	2003/8/7
#2	3	張兆媛	艾爾星	NaN	2004/11/2
#3	4	付延旭	克哈星	男	2003/10/11
#4	5	王杰	查爾星	男	2002/6/12
#5	6	董澤宇	塔桑尼斯	男	2002/2/12
```
可以看到將女和朱夢雪設置成了NaN，這里的情況是不同的列中包含了不同的值。
4. 時間處理相關參數(shù)
- parse_dates：指定某些列為時間類型，這個參數(shù)一般搭配 date_parser 使用。
- date_parser：是用來配合 parse_dates 參數(shù)的，因為有的列雖然是日期，但沒辦法直接轉化，需要我們指定一個解析格式。
```
df = pd.read_csv('data\students.csv')
df.dtypes
#id           int64
#name        object
#address     object
#gender      object
#birthday    object
#dtype: object
```
我們通過 parse_dates 將 birthday 設置為時間類型。
```
df = pd.read_csv('data\students.csv', parse_dates=["birthday"])
df.dtypes
#id                   int64
#name                object
#address             object
#gender              object
#birthday    datetime64[ns]
#dtype: object
```
5. 分塊讀入相關參數(shù)
- （1） iterator：迭代器，iterator 為 bool 類型，默認為 False。
- 如果為 True，那么返回一個 TextFileReader 對象，以便逐塊處理文件。這個在文件很大、內(nèi)存無法容納所有數(shù)據(jù)文件時，可以分批讀入，依次處理。
```
chunk = pd.read_csv('data\students.csv', iterator=True)
chunk
#
```
我們已經(jīng)對文件進行了分塊操作，可以先提取出前兩行。
```
print(chunk.get_chunk(2))
#   id name address gender   birthday
#0   1  朱夢雪     地球村      女  2004/11/2
#1   2  許文博     月亮星      女   2003/8/7
```
文件還剩下四行，但是我們指定讀取100，那么也不會報錯，不夠指定的行數(shù)，那么有多少返回多少。
```
print(chunk.get_chunk(100))
#   id name address gender    birthday
#2   3  張兆媛     艾爾星      女   2004/11/2
#3   4  付延旭     克哈星      男  2003/10/11
#4   5   王杰     查爾星      男   2002/6/12
#5   6  董澤宇    塔桑尼斯      男   2002/2/12
```
這里需要注意的是，在讀取完畢之后，再讀的話就會報錯了。（2） chunksize：整型，默認為 None，設置文件塊的大小。chunksize 還是返回一個類似于迭代器的對象，當我們調用 get_chunk，如果不指定行數(shù)，那么就是默認的 chunksize。
```
chunk = pd.read_csv('data\students.csv', chunksize=2)
print(chunk)  
print(chunk.get_chunk())
#
#   id name address gender   birthday
#0   1  朱夢雪     地球村      女  2004/11/2
#1   2  許文博     月亮星      女   2003/8/7
```
到此，相信大家對“Python中Pandas怎么讀取文件和讀取CSV參數(shù)”有了更深的了解，不妨來實際操作一番吧！這里是創(chuàng)新互聯(lián)網(wǎng)站，更多相關內(nèi)容可以進入相關頻道進行查詢，關注我們，繼續(xù)學習！

文章名稱：Python中Pandas怎么讀取文件和讀取CSV參數(shù)
網(wǎng)頁路徑：http://m.br277.com/article/jihjcc.html

網(wǎng)站建設資訊

Python中Pandas怎么讀取文件和讀取CSV參數(shù)

一、Pandas 讀取文件

二、CSV 文件讀取

1. 基本參數(shù)

2. 通用解析參數(shù)

3. 空值處理相關參數(shù)

4. 時間處理相關參數(shù)

5. 分塊讀入相關參數(shù)

其他資訊

網(wǎng)站建設資訊

Python中Pandas怎么讀取文件和讀取CSV參數(shù)

一、Pandas 讀取文件

二、CSV 文件讀取

1. 基本參數(shù)

2. 通用解析參數(shù)

3. 空值處理相關參數(shù)

4. 時間處理相關參數(shù)

5. 分塊讀入相關參數(shù)

其他資訊

一、Pandas 讀取文件