본문 바로가기
직장생활

깨지고 흐트러진 텍스트 데이터 3분 만에 정제하는 법(메인 키워드: 엑셀 데이터 정제)

by 주삐리 2026. 5. 18.


외부 플랫폼에서 다운로드한 고객 명부나 거래처에서 급하게 넘겨준 상품 리스트를 엑셀로 열었을 때, 텍스트가 엉망으로 흩어져 있어 당황했던 경험이 다들 한 번쯤 있으실 겁니다. 이름 뒤에 정체 모를 띄어쓰기가 들어가 있거나, 이메일 주소의 대소문자가 제각각이고, 전화번호의 하이픈(-)이 어떤 것은 있고 어떤 것은 없는 상태를 보면 어디서부터 손을 대야 할지 막막해집니다.

이 상태에서 무작정 VLOOKUP이나 다른 분석 수식을 입력하면 백발백중 데이터 에러가 발생합니다. 사람은 "홍길동"과 "홍길동 "을 같은 단어로 인식하지만, 엑셀은 눈에 보이지 않는 공백 하나까지 전부 다른 데이터로 취급하기 때문입니다. 수백 개가 넘는 셀을 일일이 마우스로 더블클릭하며 지우다 보면 시간은 물론이고 집중력까지 바닥나기 일쑤입니다. 오늘은 실무에서 가장 자주 발생하는 텍스트 데이터 깨짐 현상 3가지를 정리하고, 이를 단 3분 만에 깔끔하게 규칙적인 데이터로 정제하는 실전 노하우를 공유하겠습니다.

 

1. 눈에 보이지 않는 유령, 불필요한 공백 제거하기 (TRIM 함수)
텍스트 데이터 오류의 가장 큰 원인은 눈에 보이지 않는 '공백(스페이스바)'입니다. 웹사이트 폼에서 사용자가 실수로 넣은 앞뒤 공백이나, 시스템 간 데이터를 이동하는 과정에서 생겨난 유령 공백들은 수식 연산을 방해하는 주범입니다.

이때 하나씩 수작업으로 지우지 말고 TRIM 함수를 사용해 보세요. 정제하려는 원본 데이터 옆에 빈 열을 하나 만들고 =TRIM(A2)를 입력하면, 텍스트 앞뒤에 붙은 불필요한 공백을 순식간에 없애줍니다. 단어와 단어 사이에 있는 중간 공백은 딱 한 칸만 남기고 모두 지워주기 때문에 주소나 영문 문장을 정리할 때도 매우 유용합니다.

실무 팁: 만약 단어 사이에 있는 모든 공백을 완전히 없애고 글자만 딱 붙이고 싶다면 '바꾸기(Ctrl + H)' 기능을 활용하는 것이 더 빠릅니다. 찾을 내용에 '스페이스바 한 칸'을 입력하고, 바꿀 내용에는 아무것도 입력하지 않은 채 '모두 바꾸기'를 누르면 모든 공백이 일괄 제거됩니다.

 

2. 뒤죽박죽인 대소문자 일괄 통일하기 (UPPER, LOWER, PROPER 함수)
글로벌 거래처와 소통하거나 이메일 주소, 영문 이름, 혹은 상품 고유 모델 코드를 다룰 때 대소문자가 규칙 없이 뒤섞여 있으면 데이터 정렬이나 필터링이 제대로 작동하지 않습니다. 이럴 때는 텍스트 변환 함수 3가지만 기억하면 원클릭으로 규격을 맞출 수 있습니다.

전체 대문자로 변환: =UPPER(A2)를 사용하면 "apple"이 "APPLE"로 바뀝니다. 코드나 규격 관리에 필수적입니다.

전체 소문자로 변환: =LOWER(A2)를 사용하면 도메인이나 이메일 주소를 소문자로 정돈할 때 편리합니다.

첫 글자만 대문자로 변환: =PROPER(A2)를 사용하면 "tony stark"가 이름 격식에 맞게 "Tony Stark"로 자동 변환됩니다.

함수를 적용한 뒤에는 그대로 두면 안 됩니다. 해당 범위를 복사(Ctrl+C)하여 원본 위치에 '값으로 붙여넣기(Ctrl + Alt + V 후 V 선택)'를 해야 원본 텍스트가 고정되고, 나중에 수식이 깨지는 불상사를 막을 수 있습니다.

 

3. 혼용된 특수문자와 기호 정돈하기 (SUBSTITUTE 함수)
고객들의 전화번호나 사업자등록번호를 취합하다 보면 대시(-) 기호가 있는 것과 없는 것이 뒤섞이게 됩니다. 010-1234-5678과 01012345678이 공존할 때, 특정 특수문자만 쏙 빼거나 다른 문자로 교체하고 싶다면 SUBSTITUTE 함수가 완벽한 해결책이 됩니다.

빈 셀에 =SUBSTITUTE(A2, "-", "")를 입력해 보세요. A2 셀에 있는 대시(-) 기호를 찾아서 아무것도 없는 상태("")로 바꾸라는 명령입니다. 이 수식을 아래로 드래그하면 모든 하이픈이 제거된 순수한 숫자 형태의 텍스트만 깔끔하게 남게 됩니다. 반대로 공백을 언더바(_)로 교체하고 싶다면 =SUBSTITUTE(A2, " ", "_") 형태로 응용할 수도 있습니다.

다만, 이러한 함수를 사용할 때는 데이터 원본의 성격을 먼저 파악해야 합니다. 숫자로만 이루어진 데이터로 변환할 때 맨 앞의 '0'이 사라지는 현상이 발생할 수 있으므로, 미리 해당 열의 표시 형식을 '텍스트'로 지정해 두는 안전장치가 필요합니다.

데이터 정제는 단순히 보기에 좋게 만드는 작업을 넘어, 데이터 분석의 속도와 결과물의 정확도를 결정짓는 가장 중요한 첫 단추입니다. 기초 공사가 부실하면 나중에 큰 수식을 짜거나 피벗테이블을 돌릴 때 원인 모를 오류를 찾아 헤매며 더 큰 시간을 낭비하게 됩니다. 오늘 소개해 드린 3가지 방법으로 데이터의 규칙성을 먼저 확보하는 습관을 지녀보시길 바랍니다.