我正在使用 perl 通过 .txt 抓取以下内容,最终将其引入 Stata。什么格式选项有效?我有很多这样的观察结果,所以想使用一种我可以概括的方法。
原始数据格式如下:
First Name: Allen
Last Name: Von Schmidt
Birth Year: 1965
Location: District 1, Ocean City, Cape May, New Jersey, USA
First Name: Lee Roy
Last Name: McBride
Birth Year: 1967
Location: Precinct 5, District 2, Chicago, Cook, Illinois, USA
目标是在 Stata 中创建变量:
First Name: Allen
Last Name: Von Schmidt
Birth Year: 1965
County: Cape May
State: New Jersey
First Name: Allen
Last Name: McBride
Birth Year: 1967
County: Cook
State: Illinois
什么可能的 .txt 可能会导致这种情况,我将如何将其加载到 Stata 中?
此外,在这 2 个示例中,位置的术语数量各不相同,但我总是希望 2 在美国之前。
目前,我将“”放在.txt 表中的每个变量周围。
"Allen","Von Schmidt","1965","District 1, Ocean City, Cape May, New Jersey, USA"
"Lee Roy","McBride","1967","Precinct 5, District 2, Chicago, Cook, Illinois, USA"
有没有更好的方法来格式化.txt?我将如何在 Stata 中创建相应的变量?
谢谢您的帮助!
PS 我知道 stata 使用 infile 或 insheet 并且可以处理 , 或制表符来分隔变量。我不知道如何用所有这些在 perl 中刮取像 Location 这样的变量,所以我添加了“”