# CSV 파일 경로 리스트
file_paths_5y = [
'restructured_2019_SEMCP.csv',
'restructured_2020_SEMCP.csv',
'restructured_2021_SEMCP.csv',
'restructured_2022_SEMCP.csv',
'restructured_2023_SEMCP.csv'
]
# 모든 CSV 파일을 읽어와서 데이터프레임 리스트에 저장
df5s = [pd.read_csv(file_path_5y) for file_path_5y in file_paths_5y]
# 모든 데이터프레임 위아래로 병합
df_combined_5y = pd.concat(df5s, ignore_index=True)
# 병합된 데이터프레임 확인
print("\n병합된 데이터프레임")
print(df_combined_5y.head())
# 병합된 데이터를 새로운 CSV 파일로 저장
output_file_path_5y = 'combined_SEP.csv'
df_combined_5y.to_csv(output_file_path_5y, index=False)
에를 들어서 제가 column이 동일한 5년 간의 csv를 합친 후 새로운 하나의 데이터 프레임으로 만들고 그걸 다시 csv로 저장하는 상황을 가정해 보겠습니다.
결국 완성된 형태의 데이터프레임이 있고 그 이름이 df_combined_5y라고 한다면,
to_csv()라는 메서드를 사용해서 csv로 추출할 수 있습니다.
이러한 작업으로 추출된 csv 파일은 코랩이 구글 드라이브와 연동되지 않았다고 한다면 런타임이 해제되면서 삭제되니 저장해야 한다면 꼭 구글 드라이브에 먼저 마운트를 하고 그 이후에 저장할 경로로 %cd [경로주소]로 pwd를 변경하신 후에 저장을 하시길 바랍니다.
https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_csv.html#pandas.DataFrame.to_csv
pandas.DataFrame.to_csv(path_or_buf=None, *, sep=',', na_rep='', float_format=None, columns=None, header=True, index=True, index_label=None, mode='w', encoding=None, compression='infer', quoting=None, quotechar='"', lineterminator=None, chunksize=None, date_format=None, doublequote=True, escapechar=None, decimal='.', errors='strict', storage_options=None )
위와 같은 파라미터들을 가지고 있는 메서드입니다. pandas.DataFrame이라는 모듈의 하위에 있는 메서드 입니다.
path_or_buf 이 부분은 어떤 csv 이름을 지을 건지를 정의합니다.
csv 파일이니 sep=',' 이 부분이 default로 되어있는 것은 당연하겠지요?
그 외의 부분도
'Portpolio > KSEB AI project' 카테고리의 다른 글
KSEB 3기 07.22 (0) | 2024.07.23 |
---|---|
KSEB 3기 07.19 (0) | 2024.07.23 |
KSEB 3기 07.18 (0) | 2024.07.19 |
KSEB 3기 07.17 (0) | 2024.07.19 |
KSEB 3기 07.16 (0) | 2024.07.18 |
댓글