행과 열로 이루어진 데이터를 다뤄야 하는 가장 흔한 경우는 DB의 조회 결과를 다루거나 CSV 파일을 다룰 때이다. 이 경우에 각각의 행은 필드값들이 연속된 리스트이며, 전체 데이터 테이블은 개별 행(리스트)이 중첩된 2중 리스트 구조를 갖는다. 하지만 이런 케이스들은 모두 "테이블" 형태의 데이터를 다루고 있다. 즉 대부분의 처리는 각 행 혹은 라인에 대해 반복하면서 특정한 작업을 처리한다. 그러다보니 대부분 그리드 형식의 데이터를 다루는 경우에 아무런 거리낌없이 2중 리스트를 사용하고 있는데, 개인적으로 "테이블" 형식의 데이터가 아닌 단순 그리드에 대해서는 2중 리스트를 사용하는 것을 그리 좋아하지 않는다. 이 글에서는 그리드의 데이터를 단일 리스트를 사용하여 다루는 기법에 대해서 알아보겠다. 그리..
리스트에서 중복된 원소를 제거하려고 하는 상황을 가정해보자. 보통은 이런식의 코드를 생각하기 쉽다. def uniq(aList): result = [] for a in aList: if result.count(a) < 1: result.append(a) return result 임시 리스트를 만들고, 원본 리스트의 각 원소를 순회하면서 임시 리스트에 "들어있지 않다면" 추가하는 작업을 반복하여 임시리스트가 중복을 제거한 리스트를 담도록 하는 것이다. 여기서는 '.count()를 통해서 멤버십 테스트를 하는 부분을in` 연산자로 바꾸면 좀 더 좋은 성능을 (그리고 좀 더 깔끔한 코드를) 얻을 수 있다. 또 다른 방법으로는 리스트 축약을 사용하는 방법이 있다. 별도의 임시 리스트를 만들지 않고 i 번째 원소..
표준입력과 input 함수 지난 글에서 파이썬에서 텍스트 파일을 액세스할 때 파일 핸들러를 만들어서 사용한다고 했고, 파일 핸들러는 내부적으로 TextIOWrapper라는 버퍼 객체라고 했다. input() 내장함수 역시 TextIOWrapper를 사용한다. 대신 열리는 것이 디스크 상의 파일이 아니라 쉘이 제공하는 표준입력이다. TextIOWrapper(name="") 과 같은 식으로 만들어지는 버퍼가 있고, 이 버퍼는 표준입력을 파일로 간주하고 한 줄씩 읽은 결과를 리턴한다. 즉 이 말은 우리는 input() 함수 자체가 파일의 readline()과 비슷하게 동작한다는 것인데, 쉘의 입출력 특성을 사용하여, input() 함수만으로 파일을 읽어들이는 것이 가능하다는 점 시사한다.다만 차이가 있다면 파..
파일 입출력 다루기 어떤 양의 정수들을 입력받고 (예를 들어 0이 입력될 때까지 계속 숫자를 입력 받음) 그 합을 구하는 코드를 작성했다고 생각해보자. 물론 이 프로그램은 매우 간단하게 작성이 될 것이다. 그런데 이 프로그램을 사용할 때를 상상해보자. 합산해야 하는 숫자가 7자리(수백만)숫자 100개 정도된다면, 이를 일일이 키보드로 하나하나 타이핑 하는 것은 매우 번거로운 일일 것이다. 게다가 엔터를 눌러 입력한 후에 숫자가 잘못됐다는 사실을 깨닫는 상황이라면 처음부터 새로 입력해야 하는 아픔이 있을 것이다. 많은 양의 데이터를 일괄적으로 처리하기에 가장 좋은 방법은 입력값을 파일에 저장해 놓은 다음, 이것을 읽어서 처리하는 것이다. 일반적으로 한 개의 레코드를 한 줄에 기록하고 한 줄씩 읽어서 처리하..
CSV 파일은 단순한 텍스트 파일을 데이터 테이블 형식으로 사용하는 포맷이다. 기본적으로 한 행을 1개의 레코드로 사용하며, 개별 필드를 컴마 (혹은 정하기에 따라서는 탭 문자나 임의의 구분자를 사용할 수 있다.)로 구분한다. csv는 기본적으로 플레인 텍스트 파일이기 때문에 텍스트 파일을 읽고 구분자 단위로 쪼개어 각 레코드/필드를 액세스하는 방식으로 처리하는 것도 가능하지만, 이는 제법 귀찮은 여러 작업들을 동반하기 때문에 파이썬 기본 라이브러리에는 csv 파일로부터 필드를 구분하여 읽고 쓸 수 있게 해주는 csv 모듈이 제공된다. 참고로 `csv` 모듈은 텍스트 파일의 내용을 구분자에 따라서 잘라서 제공해주는 것 이상의 역할을 하지 않는다. 각 필드의 값은 모두 문자열이며, 정수 및 실수 값으로 변..
파이썬의 모든 변수는 특정한 객체에 대한 참조이며, 따라서 변수에는 "대입(assignment)"라는 표현을 쓰지 않고, "바인딩(binding)"이라는 표현을 쓴다고 했다. 보통 파이썬의 변수나 값 특성에 대해서 언급하는 내용은 여기까지인데, 파이썬의 구조에 대한 이해를 좀 더 깊이있게 가지기 위해서는 개별 값의 변경 가능성(mutability)에 대해서도 조금 생각해보자. 파이썬 내의 모든 것은 객체라고 했다. 기본적으로 집합의 성격을 가지는 리스트와 사전(그리고 set)을 제외한 모든 기본 객체는 변경 불가능(immutable)하다. 우리가 표면적으로 프로그래밍 언어를 접할 때에는 실제의 값이 변수 뒤에 가려진다고 느끼기 때문에 변수명이 곧 그 값이라는 생각을 하게 된다. 일차적으로 이러한 개념은 ..
단어 수 세기 어떤 주어진 문자열에서 단어를 세어, 단어들이 자주 나오는 순으로 정렬하는 방법에 대해서 알아보자. 종이와 펜으로 센다면 만약 어떤 책의 한 페이지에 나온 단어의 빈도수를 조사하기 위해서 종이와 펜이 주어져 있다면 어떻게 풀것인가? 보통 다음과 같은 방법을 생각해 낼 수 있을 것이다. 종이를 세로로 반으로 접는다. 왼쪽에는 단어를 쓰고, 오른쪽에는 단어가 나타난 횟수만큼 빗금을 친다. (나이가 좀 있으신 분들은 바를 정자를 쓰면 됩니다.) 책을 읽어나가면서 각 단어를 읽을 때 마다 이미 표기된 단어에는 빗금을 추가하고, 새로 만난 단어는 왼쪽에 단어를 추가하고 오른쪽에 빗금 하나를 친다. 원시적인 방법이긴 하지만, 이 방법이 사실상의 정도(正道)이며, 우리가 작성해야하는 코드 역시 무슨 마..
리스트 정렬하기 파이썬의 리스트는 .sort() 메소드를 이용해서 정렬할 수 있다. 단, 이 때의 정렬은 제자리 정렬로, .sort() 메소드는 리턴값이 없으며 (리턴값이 없는 파이썬 함수가 늘 그러하듯None을 리턴하기는 한다.) 메소드를 호출한 원본 리스트의 내부 원소들이 순서를 바꾸게 된다. 실제로 메모리 사용량을 극히 제한해야 하는 특수한 상황이 아니라면 제자리 정렬보다는 sorted 함수를 이용한 정렬이 보다 안전하다. (제자리 정렬은 되돌릴 수가 없다.) sorted는 말 그대로 "정렬된" 사본을 만들어주는데, .sort()가 리스트 객체의 메소드라는 한계를 갖는데 비해, sorted함수는 "연속열"을 정렬하는 함수이기 때문에 튜플이나 그외의 반복자등의 연속열을 정렬된 리스트로 만들 수 있다...
- Total
- Today
- Yesterday
- 파일입출력
- locals()
- 사전
- 파이썬노트북
- 정렬키
- 우분투
- Python
- python list
- 파이썬
- 반복자
- 함수형
- jupyter-notebook
- Lambda
- short_circuit
- 복수기준정렬
- mutability
- leapYear
- dict
- ipython-notebook
- 정렬기준
- 튜플언패킹
- 리눅스
- 단어 빈도수
- 표준입력
- 변경가능
- globals()
- sorted
- 리스트
- iterable
- 이중리스트를 사용하지 않기
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |