인덱싱 Pandas 데이터 프레임: 정수 행, 명명된 열
말합니다df팬더 데이터 프레임입니다.
df.loc[]이름만 사용할 수 있습니다.df.iloc[]정수(actual 배치)만 사용할 수 있습니다.df.ix[]이름과 정수를 모두 사용할 수 있습니다.
행을 참조할 때,df.ix[row_idx, ]예를 들어 이름만 알려주고 싶어합니다
df = pd.DataFrame({'a' : ['one', 'two', 'three','four', 'five', 'six'],
'1' : np.arange(6)})
df = df.ix[2:6]
print(df)
1 a
2 2 three
3 3 four
4 4 five
5 5 six
df.ix[0, 'a']
오류를 발생시킵니다. '2'를 반환하지 않습니다.
열을 참조할 때 iloc는 이름이 아닌 정수를 선호합니다.
df.ix[2, 1]
2가 아닌 '3'을 반환합니다. (비록df.idx[2, '1']돌아오다.2).
이상하게도 저는 정반대의 기능을 원합니다.보통 제 칼럼 이름은 매우 의미가 있기 때문에 제 코드에서 직접 참조합니다.하지만 많은 관찰 청소 때문에 내 팬더 데이터 프레임의 행 이름은 보통 다음과 일치하지 않습니다.range(len(df)).
다음을 활용할 수 있습니다.
df.iloc[0].loc['a'] # returns three
하지만 보기 흉해 보이네요!코드가 이렇게 보이도록 더 나은 방법을 아는 사람이 있습니까?
df.foo[0, 'a'] # returns three
사실, 제 자신의 새로운 방법을 추가하는 것이 가능한가요?pandas.core.frame.DataFrame를 들어 s, df.idx(rows, cols)사실은df.iloc[rows].loc[cols]?
늦은 답변이지만 @unutbu의 코멘트는 여전히 유효하며 이 문제에 대한 훌륭한 해결책입니다.
정수 행과 이름이 지정된 열(라벨이 붙은 열)로 데이터 프레임을 인덱싱하려면:
df.loc[df.index[#], 'NAME']어디에#는 유효한 정수 인덱스이고NAME는 열의 이름입니다.
기존의 답변들은 제가 보기에는 근시안적으로 보입니다.
문제 해결책
df.loc[df.index[0], 'a']
여기서 전략은 0번째 행의 행 라벨을 얻은 후 사용하는 것입니다..loc여느 때와 마찬가지로두 가지 문제가 있습니다.- 한다면
df행 레이블이 반복적으로 표시됩니다.df.loc[df.index[0], 'a']여러 행을 반환할 수 있습니다. .loc보다 느립니다..iloc당신은 여기서 속도를 희생하고 있는 거군요.
- 한다면
df.reset_index(drop=True).loc[0, 'a']
행입니다. 따라서이 0, 1, 2, ...이 되도록 인덱스를 재설정하는 것입니다..loc[0]와 동일한 결과를 가져옵니다..iloc[0]. 여전히 여기서 문제는 런타임입니다..loc보다 느립니다..iloc그리고 지수를 재설정하는 비용이 발생합니다.
베터 솔루션
저는 @Landmaster의 의견을 따를 것을 제안합니다.
df.iloc[0, df.columns.get_loc("a")]
본질적으로, 이것은 다음과 같습니다.df.iloc[0, 0]우리가 동적으로 열 인덱스를 얻는 것을 제외하고는df.columns.get_loc("a").
다음과 같은 여러 열을 색인화하는 방법['a', 'b', 'c']:,:
df.iloc[0, [df.columns.get_loc(c) for c in ['a', 'b', 'c']]]
갱신하다
이것은 팬더에 대한 제 강의의 일환으로 여기서 논의됩니다.
답변이 매우 늦었지만 판다는 오랜 세월이 흘렀지만 여전히 그런 기능을 가지고 있지 않다는 것이 놀랍습니다.귀찮으면 사용자 지정 인덱서를 DataFrame에 몽키 패치할 수 있습니다.
class XLocIndexer:
def __init__(self, frame):
self.frame = frame
def __getitem__(self, key):
row, col = key
return self.frame.iloc[row][col]
pd.core.indexing.IndexingMixin.xloc = property(lambda frame: XLocIndexer(frame))
# Usage
df.xloc[0, 'a'] # one
a에서 단일 값을 가져오거나 설정하는 경우DataFrame행/열 레이블에 의해, ... 대신 사용하는 것이 좋습니다.
- 빠른
- 단일 값에만 액세스하기를 원하는 것에 대해 보다 명확하게 설명할 수 있습니다.
다른 사람들이 이미 보여준 것처럼 행에 대한 정수 위치로 시작하는 경우에도 행 레이블을 먼저 찾아야 합니다.DataFrame.index~하듯이DataFrame.at레이블만 사용할 수 있습니다.
df.at[df.index[0], 'a']
# Out: 'three'
벤치마크:
%timeit df.at[df.index[0], 'a']
# 7.57 µs ± 30.8 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
%timeit df.loc[df.index[0], 'a']
# 10.9 µs ± 53.3 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
%timeit df.iloc[0, df.columns.get_loc("a")]
# 13.3 µs ± 24 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
완성도를 위해:
DataFrame.iat 정수 위치별 행/열 쌍에 대한 단일 값에 액세스하는 경우.
우리는 인덱스를 재설정한 후에 이렇게 0 기반의 인덱스를 사용할 수 있습니다.
df.reset_index(drop=True).loc[0,'a']
편집: 제거됨[]from colname index'a'그래서 그냥 값을 출력합니다.
행이 하나만 필요한 경우 행을 열로 전환할 수 있습니다.
df.transpose()['a']
https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.transpose.html
저는 df["a"][0] 같은 것이 잘 작동합니다.한 번 해보세요!
언급URL : https://stackoverflow.com/questions/28754603/indexing-pandas-data-frames-integer-rows-named-columns
'programing' 카테고리의 다른 글
| mysql에 대한 excel 형식 날짜 (0) | 2023.10.19 |
|---|---|
| 드롭다운 상자에서 선택한 항목을 설정하는 방법 (0) | 2023.10.19 |
| lxml에서 요소를 제거하는 방법 (0) | 2023.10.19 |
| FROM 절에서 하위 쿼리를 사용하여 MariaDB 쿼리를 최적화하려면 어떻게 해야 합니까? (0) | 2023.10.19 |
| "#TYPE" 라인 없이 PowerShell을 사용하여 CSV를 출력하려면 어떻게 해야 합니까? (0) | 2023.10.19 |